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译言 



看了 第一本 有关统 计谎言 的著作 How to Lie with Statistics by Dorrell Huff, 1954, 立 

论 精辟， 虽 然书中 一些例 子已经 过时， 理据依 然对照 现在的 「统计 误世」 年代。 
计算机 软件又 引进了 一些新 工具和 误区。 考虑 之下， 为保 留原作 面貌， 选 择译本 
每章 分为两 部份。 第一 部份翻 译原书 （略有 删节， 省 掉没有 历史背 景资料 很难明 
白的例 子）， 第二 部份选 译补充 材料， 主要 参考如 何利用 统计数 据撒谎 
(WikiHow)、 统计学 〈维 基百 科〉、 统 计误用 〈维 基百 科〉、 Misleading graph 〈维 
基 百科〉 以及其 他网页 数据。 




译本以 Creative Commons 条款 发表， 即是： 保留 署名权 (Attribution), 欢 迎各位 
下载、 转载和 分发， 允许衍 生作品 （必 须以 相同条 款分发 Share Alike) 和 禁止商 
业用途 (Non-commercial) 条款 发表。 

Creative Commons 有 限版权 制度面 世已经 十年， 全球 有一百 三十多 个国家 和地区 
已有本 土化的 Creative Commons 条款。 Creative Commons 条 款适用 于任何 创作成 
果： 大 如维基 百科， YouTube 视频、 Flickrs 相 片集， 小 如个人 网志， 都可 以是以 
Creative Commons 条 款发表 的学习 和应用 材料。 如 各路英 雄一呼 百应， 本 着知识 
共享的 精神， 壮大 Creative Commons 的 范畴， 互相 支持， 互补 互助， 网 上的知 
识 源泉定 必波澜 壮阔。 

华文 世界的 Creative Commons 发展， 有 是有， 但比 诸其他 语言， 实 在落后 于人。 

「革 命尚未 成功， 同志 还需努 力。」 

关于 「统 计学」 的 Creative Commons 著作， 我只找 到刘彦 方和陈 强立的 《思方 

网 ： 统 计与图 表》， 如高人 有其他 发现， 请 告知。 
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统计 的重要 
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复 杂的现 代社会 离不开 调查和 统计。 相 关人员 收集、 整理、 归纳、 分析数 据和发 
表 结果， 广 泛应用 在自然 科学、 社 会科学 和人文 科学， 也用 于决定 工商业 及政府 
政策。 日常 生活躲 也躲不 了的广 告也每 每以统 计数据 引导消 费者。 



统计是 为面对 不定状 况制定 决策提 供方法 的科学 。统 计学和 机率论 的关系 异常密 
切， 事实 上任何 统计问 题的研 究都必 涉及机 率论的 运用， 后 者实为 前者的 主要工 

具。 统计可 以是利 用现有 数据或 通过调 查取得 数据。 除非 母体群 population) 规 

模 特小， 调查可 以覆盖 全部， 一 般调查 是以取 样方式 进行： 搜集小 量数据 （样本 
sample) 的 数据以 估计、 预测和 研究母 体群。 



统 计陷阱 带来的 负面影 响可大 可小。 基 于错误 统计的 政策可 能差之 毫厘， 谬以千 
里； 医 学的统 计陷阱 可能要 数十年 后才被 纠正， 招 致人命 损失。 近 代广告 特多统 
计数 字引导 误导消 费者。 



要了 解统计 的诸多 陷阱， 先看 看一般 统计的 流程。 



利用 现有数 据的统 计主要 是案头 作业， 这方 面的陷 阱亦见 诸调查 统计。 要 搜寻未 
知的 数据， 抽样 调查是 最常用 的搜集 方法。 



一般 而言， 统 计作业 的步骤 如下： 

1. 决 定调查 主题。 

2. 决 定收集 数据的 方法： （a) 书面 作业或 (b) 调查： 面对面 访问， 邮寄 问卷、 电话 

访问 或混合 运用。 

3. 界定 (a) 书面 作业的 范围或 (b) 抽样调 查的母 体群。 

4. 决定 (b) 抽样 使用的 母体群 清册： 如 电话号 码簿、 会员 名单、 户籍资 料等。 

5. 决定 (b) 抽样 方式： 随机 抽样、 分层 抽样、 系 统抽样 或分段 抽样。 



亦作 parent population, universe; 有译为 「总体 、 母体、 母群 」。 



6. 决定 (b) 样本 大小； 若需 分层， 需决定 分层方 式及各 层样本 大小。 

7. (b) 进行 抽样， 选 取样本 元素。 

8. 设计 (b) 收集 数据的 形式； 设 计调查 问卷， 预试。 

9. (a) 汇集 资料； （b) 执行 调查， 向样 本收集 反馈。 

10. (a) 和 (b) 数据 检误、 处理及 分析。 

11. (a) 和 (b) 发表 结果。 

从上 可见， 每一 步骤都 涉及人 为因素 和诸多 可操控 手段。 无论 是什么 形式的 统计， 
都可能 出错； 这 可能是 意外， 也 可能是 故意， 构 成统计 陷阱。 

有三种 谎言： 谎言， 该死 的谎言 和统计 数字。 —Benjamin Disraeli 

总有 一天， 有教 养的公 民能读 能写， 也要 有统计 思维。 —H.G.Wells 

我们 不知道 的那些 事情不 会让我 们陷入 困境， 
而是我 们知道 但并非 如此的 事情。 _Artemus Ward 

数字 与统计 

「多 数人对 于数字 具有先 天的畏 惧感， 是有 演化的 根源； 因为人 类存活 
在地球 有几十 万年， 大 多数时 候是几 十人、 最多百 来人的 小族群 过着狩 
猎 采集的 生活， 全 部家当 两只手 就可拿 着走， 因此不 需要用 上什么 数字， 
对 成千上 万的大 数字更 是没有 概念。 只有在 近一万 年来， 人类实 行农业 
生 活后， 人类 社会的 规模与 财富不 断累积 成长， 才 开始出 现对数 字的需 
求， 也才 有天赋 异禀之 士发展 出各式 各样的 数学。 

虽 然多数 人对数 字可能 无感， 但冰冷 的数字 还是要 比感性 的言语 可靠。 
统计 是整理 大数字 的科学 方法， 如 果是因 为不懂 统计， 或吃 过统计 的亏， 
就 把统计 与谎言 并列， 可说 是因噎 废食， 也算另 一种人 的偏见 吧。」 

_ 〈潘 震泽： 人类 天生的 缺陷： 数 字盲〉 

引文说 「把 统计 与谎言 并列」 是 「另 一种 人的偏 见」。 相信 没有人 会把全 部统计 
看作为 谎言， 但 统计有 误区， 也不 能否认 有人利 用统计 说谎。 统计 有什么 误区？ 
如何 说谎？ 这是 本书的 主题。 



统计如 何说谎 ？ 



遍匿 CFVF TTO 

LIE WITH 

STATISTIC! 

Harrell Huff 




Darrell Huff, 1954' 

目录 

序言 

第一章 有内 置偏差 的样本 
第二章 精心 挑选的 平均值 
第三章 不 存在的 小数字 
第四章 为了子 虚乌有 无事忙 
第五章 啧 啧称奇 的图形 
第六章 图形 
第七章 半吊子 的数字 
第八章 「后 此谬误 」 又来了 

第九章 统 计误世 
第十章 如何反 驳统计 的谎言 

附录 香港 大学民 意调查 的争论 



原文： How to Lie with Statistics by Darrell Huff, 1954 。 译 本略有 删节， 减掉 一些不 懂历史 背景很 难明白 的过时 例子。 



序言 



神圣 古老的 英国度 量衡制 度快要 取消， 英 寸和英 尺的时 代快要 结束； 盖洛 普民意 

以一贯 方式测 试人们 对取而 代之的 公制的 认识， 发 现大学 程度的 男女有 33 %从 
未听过 公制。 

然 后一份 周刊的 读者调 查宣布 读者有 98% 知道 公制。 对此， 报刊 吹嘘它 的读者 
群比 一般人 「更 懂行」 。 

两项 民调如 何能够 有这么 明 显的 差异？ 

盖洛普 调查员 精心挑 选了公 众的样 本并约 见会谈 。这 家报刊 儿戏和 经济地 依靠读 
者填写 和邮寄 问券。 

由 此不难 猜测大 部分不 知道公 制的读 者根本 没有兴 趣填报 和邮寄 问券， 自 动不参 
加调查 。用统 计术语 来说， 这样的 自我选 择只会 产生具 偏见或 不具代 表性的 样本， 
多年来 导致许 多许多 误导性 结论。 

多 年前的 冬季， 十多 位独立 调查员 报告抗 组织胺 药片的 数量， 各人 都发现 药片治 
愈大多 数感冒 病例。 

于 是广告 和医疗 产品的 热潮开 始炒得 火热。 这是基 于人们 对灵丹 妙药的 永恒希 
望， 也没 有超越 统计数 据去看 看长久 以来我 们已经 知道的 事实。 幽 默作家 Henry 
G. Felsen 不 是医学 权威， 很 久之前 已指出 适当的 治疗可 以在七 天治愈 感冒： 只要 
多 休息， 置诸 不理， 一星 期就会 好转。 

因此， 你读到 的和听 到的平 均值、 关系、 趋 势和图 表并不 是表面 的真实 无误， 背 
后 可能有 更多或 更少的 讯息。 

在 追求事 实的文 化中， 统计 的秘密 语言是 如此吸 引人， 实则 是用来 炒作， 夸大， 
混 淆和简 单化。 在报 告社会 和经济 趋势、 企 业经营 状况、 「民 意」 调查和 人口普 
查 的大量 数据， 统计 方法和 统计术 语是必 要的， 但报 告者用 辞必须 诚实和 易于了 
解， 读者 也知道 用辞的 意思， 才 不会陷 于语义 的无稽 之谈。 

科普 文章滥 用统计 数字， 几乎排 挤了在 半明不 亮实验 室日以 继夜辛 勤研究 的白袍 
英雄。 统计 资料粉 饰许多 重要的 事实， 犹 如扑粉 化妆， 上油 涂漆。 精心包 装的统 



第一章 有内 置偏差 的样本 



桶内 有红豆 白豆， 有一种 办法肯 定各有 多少： 倒出来 点数。 

有一个 更简单 的办法 算出有 多少红 白豆。 假设桶 内的红 豆白豆 是相同 比例， 拿出 
一把 豆子， 只 计数这 一把。 就大多 数目的 而言， 如样本 足够大 和选择 正确， 这足 
以代表 整体。 但如两 方面有 偏差， 其准 确度可 能远远 及不上 聪明的 猜测， 只不过 
是所 谓科学 精确的 虚言。 样本 因为选 择的方 法有失 偏颇， 或 过小， 或两者 兼而有 
之， 会导致 谎言， 也 就是我 们读到 或以为 我们知 道那些 很多结 论背后 的可悲 事实。 

样本如 何出现 偏差？ 请 看一个 极端的 例子。 假设要 发问卷 调查， 其 中包括 以下的 
问题： 「你 是否 喜欢回 答问卷 调查？ 」 之 后收回 的问卷 极有可 能得出 这样的 结论： 
「典型 的样本 人口绝 大多数 喜欢回 答问卷 调查」 ，其准 确度可 计算至 几个小 数点。 

这是 什么一 回事？ 当然是 因为回 收的问 卷已排 除了大 多数可 能回答 「不 喜欢」 的 
问卷， 调查 问卷已 掉在废 纸篓。 即使原 始样本 中十有 八九是 「不 喜欢」 那 帮人， 
这些 「错 误」 己排除 在外。 

现 实生活 中是否 有这样 的有偏 样本？ 当 然有。 

不 久前， 报刊和 新闻杂 志报导 在过去 十年有 约四百 万美国 耶教旧 教信徒 改信新 

教。 消息 来源是 跨宗派 《耶 教导报 C/7r/st/anHeraW》 编辑 Daniel A. Poling 牧师的 

调查。 《时 代》 周刊 总结这 故事： 

《导 报》 的数字 来自美 国新教 牧师， 2,219 位牧 师填报 （发 出问卷 25,000 份）， 
呈 报共有 51,361 前旧教 教徒在 过去十 年加入 新教。 Poling 依样 本估算 在十年 
有 4,144,366 名 旧教教 徒改信 新教。 WillOursler 主教 写道： 「即 使估 算有出 

入， 全 国数字 不会少 于二， 三 百万， 极有 可能接 近五百 万。」 

虽然 《时 代》 有报 导调查 中超过 90% 牧师没 有填报 问卷， 但错过 了指出 这事实 
的重 要性， 依 然精神 可嘉。 要彻底 摧毁这 调查， 唯一 要注意 的合理 可能性 是大多 
数牧师 扔掉问 卷是因 为没有 改信教 徒的数 字可以 呈报。 

利用这 假设和 Poling 采 用的相 同数字 （181,000 名牧师 ）， 可 以另行 推算。 他的调 
查涵盖 181,000 牧师的 25,000 人， 呈报 51,361 人改信 新教； 如 调查涵 盖全部 
181,000 牧 师会得 出有约 370,000 人改信 新教。 



这样 的粗糙 方法得 出非常 可疑的 数字， 但至少 是一如 前一数 字值得 信任； 那个全 

国 数字是 修正数 字的十 一倍， 因此 更引人 注目。 至于 Oursler 主教对 误差的 自信， 

如果他 发现了 一种方 法来纠 正未知 大小的 误差， 将会 造福统 计界。 

在这背 景下， 多年前 有另一 则新闻 报导， 当时 的币值 较高： 耶鲁大 学学生 平均年 
收入有 $25,111。 很棒！ 

且慢。 这 令人印 象深刻 的数字 是什么 意思？ 这是否 表明如 果子女 进读耶 鲁或牛 
津， 剑桥， 你和 他不用 年老时 上班？ 

第 一眼看 过去， 这数字 有两个 疑点： 令人 惊讶的 精确， 也不 大可能 这样的 令人称 

羡。 

只有极 小可能 性可以 精确得 知任何 散漫群 体以往 任何时 候的平 均收入 ，更 不要说 
精确至 $111。 除 非收入 全来自 薪金， 很少 人能如 此精确 知道自 己的年 收入。 有这 
样 收入的 人往往 会分散 投资。 

此外， 这个可 爱的平 均数无 疑是源 于耶鲁 毕业生 的自报 收入。 即 使耶鲁 大学在 
1924 年校风 纯朴， 但 不能保 证四分 之一世 纪后这 些毕业 生都如 实自报 收入。 被 
问及 他们的 收入， 有些 人因虚 荣心或 乐观夸 大了。 其他人 少报， 尤 其是担 心纳税 
申报， 不 想在任 何其他 文件留 下自相 矛盾的 数据。 谁知 道税务 局会否 看到？ 吹嘘 
和低估 这两种 倾向可 能相互 抵消， 但其实 是不可 能的。 其一 倾向可 能远远 强于另 
一， 但不知 道是哪 一个。 

先说 一下： 常 识告诉 我们这 数字几 乎不是 真相。 这信息 表示一 些人的 「平均 收入」 
是 $25,111， 而 这些人 的实际 平均收 入可能 较接近 一半。 现 在看看 信息可 能来源 

的最大 误差。 

常识 告诉我 们不可 能在二 十五年 后与当 年的全 部毕业 生保持 联络。 有人己 往生， 
有 人地址 不详。 

那些有 通讯地 址的， 很 多人不 会回答 问卷， 特别关 乎相当 个人的 资料。 对 于某些 
类型 的邮件 问卷， 5-10% 的 反应已 是相当 高的。 这一 个调查 的回报 率应该 比这更 
好， 但肯 定不是 100%。 

因此， 这收入 数字源 自有已 知地址 而又乐 意填报 个人收 入的毕 业生。 这是 否具代 
表性的 样本？ 也就 是说， 是 否可以 假设这 群组的 收入是 相等于 没有参 加调查 （没 
有地址 或不愿 回报） 的另 一群毕 业生？ 



在耶鲁 名录， 那些 毕业生 「地址 不详」 ？ 是否 那些赚 大钱的 华尔街 巨子， 公司董 
事， 制造 业及公 用事业 主管？ 不， 富 人的通 讯地址 不难查 得到。 即 使他们 忽略了 
联系 校友办 公室， 从名人 录和其 他参考 刊物找 出他们 的通讯 地址应 是轻而 易举。 
二十五 年后失 联的毕 业生， 按常理 猜测应 是那些 毕业后 事业不 顺的毕 业生： 文员， 
技工， 流 浪汉， 失业酗 酒汉， 仅堪糊 口的作 家和艺 术家。 可 能几个 人的收 入总和 

才 可攀上 $25,111 的收入 水平。 他 们不那 么经常 参加旧 生联谊 活动， 可能 有些人 

甚至不 能负担 旅费。 

谁会 把问卷 撵到垃 圾桶？ 不能 肯定， 但 公平的 猜测至 少是很 多人没 有挣多 多的钱 
可 以自我 吹嘘。 这有 点像新 员工发 现第一 份工资 单夹着 纸条， 建议 他保密 工资数 
额， 不与 同事交 换机密 数据。 这家伙 会告诉 老板： 「别 担心， 我和 你一样 为此感 
到羞 耻。」 

看来很 清楚样 本省略 了最有 可能压 低平均 水平的 两组。 那个 $25,111 数字 开始为 
自己 解释。 这只 适用于 有己知 地址， 又愿意 公开本 人收入 的特殊 群体。 这 还要假 
设他 们是说 真话的 君子。 

不要轻 易作出 这样的 假设。 抽 样调查 的一个 品种即 是所谓 「市 场调 研」， 其经验 
表明 根本不 能作出 假设。 有一 项市场 调查的 关键问 题是： 你家 看什么 杂志？ 结果 
列表和 分析显 示很多 人喜爱 高端的 Harper's, 这虽 然不算 是曲高 和寡， 但 至少算 
得是中 上阶层 口味； 并 没有很 多人自 认是低 俗杂志 7"ri/e Story 的 读者。 然而， 出 
版 商的数 字很清 楚表明 True Story 的 发行量 有几百 万份， 而 Harper's 只有几 十万。 
调查的 设计人 员自我 解困： 也 许我们 问错了 对象。 但事 实不是 这样。 调查 在全国 
各 地街上 访问。 那 么唯一 合理的 结论是 很多受 访者回 答这些 问题时 没有说 实话。 
调查只 是发现 了人们 在装腔 作势， 装模 作样。 

最终 发现， 如果 想知道 某些人 看什么 杂志， 查 询是没 用的。 更好的 办法是 从他们 
家里 买入旧 杂志， 这 中自有 信息。 

只 需数算 《耶鲁 评论》 和 《爱情 周刊》 的 册数。 即使 这样也 不能确 实知道 人们在 
看 什么， 只是 知道他 们接触 什么。 

同样， 读到 有报导 一般人 （最 近听的 很多， 大 部份不 可信） 刷牙 每天一 到两次 （我 
随意取 一个数 字）， 这 有什么 问题？ 谁能知 道这些 事情？ 女生看 了无数 广告， 印 
象 中以为 不刷牙 是社会 罪行， 她 会否向 陌生人 承认她 不经常 刷牙？ 这样的 统计只 
意味着 人们对 刷牙的 说法， 但没 有弄清 楚人们 刷牙的 频率。 



谚语 有云： 河水向 下流， 不高于 源头。 嗯， 这似 乎是可 能的， 如果 有泵站 帮忙。 
同 样真实 的是抽 样调查 的结果 不会优 于样本 本身。 数据经 通过层 层统计 处理， 过 
滤为小 数点平 均值， 调查 结果开 始蒙上 可信的 光环， 但仔细 看看采 样就可 以否定 
这 假像。 

可 信的采 样报告 必须采 用具代 表性的 样本， 即 是已去 除每一 偏见的 源头。 上文的 
耶鲁 数字顿 见毫无 价值。 许 多报刊 和杂志 报导犯 下同样 错误， 没 有什么 意义。 

有 一次， 精 神科医 生报告 谓几乎 每个人 都是神 经质。 这样的 说法除 了破坏 「神经 
质」 一词 的任何 意义， 倒 不如看 看这位 医生的 样本， 也就是 说这位 精神科 医生一 
直在 观察什 么人？ 原来， 他是从 观察他 的病人 得出这 启发性 结论； 这个 「样 本」 
根本 不能作 为总体 人口的 样本。 正常人 不会看 心理医 生的。 

阅读不 要囫图 吞枣， 可以避 免学习 了一大 堆表里 不一的 东西。 

值 得铭记 无论是 有形或 无形来 源的偏 差都会 破坏样 本的可 靠性。 也就 是说， 即使 
不 能找到 可证实 偏见的 来源， 只 要有偏 差的可 能性， 对结果 也应保 持一定 程度的 

怀疑。 

一项 例证是 1936 年 《文学 文摘》 月刊 的著名 惨败。 月刊的 一千万 名电话 用户和 
月刊 订户调 查曾准 确预测 1932 年 的总统 大选。 1936 年， 月 刊汇集 同一名 单的反 
馈， 编辑部 放心预 测罗斯 福只有 161 选举 人票， 对手 Landon 得票 370。 这样本 
名 单久经 测试， 怎会有 偏差？ 当然有 偏差； 无 数高校 论文和 其他事 后研究 发现： 
在 1936 年有 财力安 装电话 和订阅 杂志的 人不是 全体选 民的横 截面。 这个 富裕组 
群是 特殊的 组群； 这是 一个有 偏差的 样本， 因为 大多数 样本是 共和党 选民。 这样 
本选择 Landon, 但全 体选民 却不以 为然。 

基本样 本被称 为随机 (random), 在母 体群中 被选中 纯粹是 偶然； 统 计人员 指全体 

为 「母体 群」， 样本 是其中 部份： 索引卡 每十个 名字选 一个， 每批纸 张取五 十张， 
在闹 市每二 十名行 人采访 一位。 （但请 记住， 这 不是这 个国家 或城市 人口的 样本， 
只是当 时闹市 区域的 样本。 一项 民意调 查的访 问员声 称可在 火车站 「找到 各种人 
等。」 必须指 出她的 误区： 例如， 带着小 童的母 亲可能 比例不 足。） 

随机样 本的测 试是这 样的： 是 否每一 个名字 或事物 在整体 中有平 等机会 成为样 
本？ 

纯随 机抽样 4 ， 是 唯一可 以利用 统计理 论检查 而又令 人有全 面信心 的统计 方法， 



purely random sample 



但其 多种用 途的成 本昂贵 和执行 困难， 令 人望而 却步。 民意 调查和 市场研 究这些 
普遍 领域几 乎都采 用更经 济的替 代品： 分层随 机抽样 5 。 

要得 出分层 抽样， 先把 母总群 按已知 盛行率 6 比例分 为组群 7 。 麻 烦从此 开始： 所 
知的比 例讯息 可能不 正确。 调 查员按 指示访 问多少 名黑人 （以 收入 阶层细 分百分 
比）， 多少 名农民 等等； 这 些组群 必须均 分为四 十周岁 之上和 之下。 

听起 来有层 有次， 但实际 情况是 怎样？ 大部分 时间调 查员不 会弄错 受访对 象是黑 
人或 白人。 收入方 面会多 犯错。 如 何界定 农民： 在农 场兼职 又在城 市上班 应如何 
分类？ 即使 年龄也 可能带 来一些 问题， 避重就 轻的办 法是只 选择明 显低于 或超过 
四十周 岁的受 访者。 在 这种情 况下， 样本有 偏差， 没 有包括 三十多 岁和四 十多岁 
的年 龄组。 你不能 全赢。 

考虑以 上各点 ，应如 何在分 层内得 出随机 样本？ 最明 显的先 找出全 体人口 的姓名 
列表， 从 中随机 选择； 但 成本太 昂贵。 所以访 问员走 到街上 （偏误 是忽略 了留在 
家中 的人们 ）， 或是 在白天 挨家挨 户访问 （偏误 是忽略 了上班 族）， 或换到 晚上访 
问 （忽 略了电 影迷和 夜游人 ）。 

意见 调查的 操作， 归 结到底 是对有 偏见来 源的持 久战， 所有 著名的 民调机 构时时 
刻 刻都在 作战。 阅读 调查报 告时， 必须 记住这 是必然 败北的 战斗， 从 来没有 赢过。 

「英 国人有 67% 反 对…」 或其他 类似的 结果， 先要 问问这 67% 是 什么英 国人。 

美 国著名 的人类 性学研 究者金 赛博士 8 与他人 合着的 《金 赛报告 9 》： 《男 性性 行为》 
(1948 年） 及 《女 性性 行为》 （1953 年）。 《报 告》 无 疑是划 时代的 研究， 但样本 
远 远不是 随机， 令人 不安。 样 本名单 有极大 偏差： 女性 受访者 75% 有大专 以上学 
历， 男 性受访 者有颇 大比例 是囚犯 (25%) 或男妓 (5%) 1Q 。 更严 重的误 区是样 本大幅 
度 倾向有 性暴露 狂的受 访者； 乐意 向访问 员诉说 性历史 的人， 其经 历大大 有异于 
对访 问 员 说不 的 沉默寡 言群体 。 

布鲁克 林学院 A. H. Maslow 在金 赛之前 有一项 研究， 参与的 女学生 许多后 来也志 
愿参与 金赛的 研究； Maslow 发现 这些女 生普遍 是较为 性成熟 和独立 特行。 这证 

实 了人们 对金赛 研究的 质疑。 

阅读 《金赛 报告》 或 任何有 关性行 为的较 近期研 究时， 要懂 得适可 而止： 即是不 



stratified random sampling 
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金 赛博士 AWred Charles Kinsey, 1894-1956 
Kinsey Reports 

译 文略有 补充， 参 考维基 百科。 



要过份 阅读。 任何基 于采样 的研究 都突显 这样的 误区， 尤其 是大型 调查的 主要报 
告 浓缩为 摘要形 式更可 能变得 如此。 

首先， 像 《金赛 报告》 这样 的研究 至少涉 及三个 层次的 抽样。 上文 已指出 母体群 

(第一 层次） 的样本 并不是 随机， 因此可 能不特 别代表 任何母 体群。 同样 重要的 

是 要记住 任何问 卷可能 只是许 多可能 问题的 其中一 个样本 （第 二层次 ）。 受访者 
的答 案只不 过是响 应那问 题的个 人态度 和经验 的样本 （第 三层次 ）。 

类似金 赛的性 研究和 其他调 查都发 现访问 员的身 份会影 响调查 结果。 在 二战期 
间， 美国 全国民 意研究 中心派 出两位 员工访 问南方 城市的 五百名 黑人。 一 位调查 
员是 白人， 另 一位是 黑人。 

访 问员提 出三个 问题。 其一是 「如 果日 本征服 美国， 黑人 会得到 更好或 更坏待 

遇？ 」 黑人 访问员 回报受 访者有 9% 回答 「更 好」。 白 人访问 员得到 同样的 响应只 
有 2%。 黑人 访问员 回报受 访者有 25% 回答 「更 坏」。 白人访 问员得 到同样 的响应 
却有 45%。 第二条 问题以 「纳粹 德国」 取代 「日 本」， 结 果也是 类似。 

第三 条问题 探讨可 能是基 于前两 条问题 显露的 感情。 「专心 击败轴 心国或 致力让 
民 主更好 在美国 发展； 你 认为那 一项更 重要？ 」 黑 人访问 员回报 39% 选答 「专心 
击 败轴心 国」， 而白 人访问 员回报 62%。 

偏误是 因为许 多未知 因素。 最有 效的因 素可能 是人们 有给出 令对方 满意答 案的倾 
向， 因此阅 读调查 结果时 要自我 提醒。 回 答在战 乱时对 忠于国 家的问 题时， 南方 
黑人会 告知白 人访问 员动听 的答案 ，而 不是本 人实际 相信的 答案， 这 是不足 为奇。 
也有可 能是不 同访问 员选择 不同类 型的对 象接受 访问。 

在 任何情 况下， 结 果是很 明显是 一面倒 偏误， 毫无 价值。 各 位可以 自行判 断有多 
少调查 的结论 是一样 偏颇， 毫无 价值， 而 且没有 测试揭 示这些 偏误。 

如果 你怀疑 一般调 查偏向 于特定 方向， 一如 《文学 文摘》 的 错误， 这可视 之为相 
对 证据： 受 访者比 代表母 体群平 均组群 偏向更 有钱， 受较多 教育， 有较多 信息和 
较高警 觉性， 更 美好的 外观， 更常规 的行为 以及较 稳定的 习惯。 

很容 易看到 如何产 生这此 偏误。 假设 访问员 被分派 到某街 角完成 面试。 眼 前两位 
仁 兄似乎 都适合 要求的 类别： 第 一位是 四十处 的城市 黑人， 不修 篇幅； 另 一位穿 
着 干净工 作服， 体面 整洁。 为了 尽快完 成访问 任务， 访问员 更有可 能向后 者打招 
呼。 全国 各地的 访问员 都做出 类似的 决定。 



自由派 或左翼 圈子对 民调最 反感， 普遍认 为民调 一般被 操控。 这种 观点的 背后事 
实是民 调结果 往往不 符合那 些思想 不保守 人士的 意见和 愿望。 他们 指出民 意调查 
似乎 选上共 和党， 即 使此后 选民不 是这样 投票。 

事 实上， 从上文 所见， 民 调不是 必然被 操纵， 刻意扭 曲结果 以制造 假象。 样本向 
这一致 方向倾 斜已是 自 动扭 曲 。 

补 充材料 

选择 母体群 和抽样 的误区 

书 面作业 选用那 些现有 数据？ 调 查选择 那些母 体群？ 全都影 响统计 数据。 
即 使母体 群的界 定符合 「涵盖 全体」 的 意思， 如 何从中 抽样？ 11 

• 简单随 机抽样 simple random sampling, 也叫 纯随机 抽样。 从 母体群 N 个 

单 位中随 机抽取 n 个单 位作为 样本， 每 一单位 有相同 机率被 抽中为 样本， 
即是 每个样 本单位 被抽中 的机率 相等， 每个 样本单 位完全 独立， 彼 此没有 
一定 的关联 性和排 斥性。 简 单随机 抽样是 其它各 种抽样 形式的 基础， 通常 
只是在 母体群 单位之 间差异 程度较 小和数 目 较少时 才采用 。 
• 系 统抽样 systematic sampling, 也 称等距 抽样。 将母 体群的 所有单 位按一 
定顺序 排列， 在规定 范围内 随机抽 取一个 单位作 为初始 单位， 然后 按事先 
规 定规则 确定其 他样本 单位。 先 从数字 1 到 k 之 间随机 抽取一 个数字 r 作 
为初始 单位， 以后 依次取 r+k、 r + 2k ...... 等 单位。 这种方 法操作 简便， 可提 

高 估计的 精度。 

• 分 层抽样 stratified Sa mpling。 将 抽样单 位按某 种特征 或规则 划分为 不同分 

层， 然后 从不同 分层中 独立、 随 机抽取 样本。 从而保 证样本 的结构 与母体 
群结 构比较 相近， 从 而提高 估计的 精度。 
• 整 群抽样 duster samplingo 将母体 群的若 干个单 位合并 为组， 形成抽 样框， 

抽样 时直接 抽取， 然 后全部 调查中 选组群 的所有 单位。 抽样 时只需 抽中抽 
样框， 可 简化工 作量， 缺点 是估计 的精度 较差。 

学术调 查较多 说明采 用那种 方法， 但 一般调 查极少 说明。 以香港 为例， 有 化妆品 
/ 牙膏 等等广 告标榜 「90% (或高 比例） 女士 / 牙医选 用…」 ； 为适 应法例 要求， 
广告 以极小 白字标 示数据 来自什 么什么 调查。 仔细 一看， 这 些调查 往往来 自内部 
或 母公司 调查。 这些 数据应 该是真 实的， 但这些 「内 部」 调 查是否 随机？ 是否涵 
盖适 当的母 体群？ 牙 医母体 群是否 包含全 部注册 牙医， 或是 参加广 告方主 办免费 



这段 落取自 〈抽 样〉 《维 基百 科》， 略有 改写。 



研讨 会的参 加者？ 「女 士」 是否 局限于 在该品 牌化妆 柜台浏 览甚至 购物的 女士？ 

> 参考 阅读： 抽样与 代表性 
轻率概 化和过 度类化 

统 计的的 特定总 体不能 代表母 体群， 即 是轻率 概化的 谬误， 例如调 查只限 于某政 
党 党员和 同路人 而把结 论概化 为全民 意见。 

现 实生活 中的调 查往往 以电话 进行， 常 有过度 类化的 谬误。 如调查 人员只 致电手 
机 （流 动电话 ）， 而手 机用户 以年青 人占大 多数， 这忽略 了没有 手机， 只 有家用 
电话的 家庭主 妇和老 年人。 这 不是全 民调查 的正确 取样。 

抽 样调査 

常见 的报导 屡屡提 到是次 调查访 问了多 少人。 大 城市人 口动辄 千万， 大国 人口以 
亿计， 究 竟调查 样本应 有多少 才有代 表性？ 不 懂统计 学的人 们少不 免怀疑 调查数 
千人 是否取 得数百 万人的 意见。 完 美公正 的抽样 和可信 答案的 调查， 在数 学上有 
误差 范围， 取决于 调查的 人数。 

先 要了解 取样调 查的两 个重要 术语： 置 信区间 "(confidence interval) 和置 信水平 
''(confidence level) o 置信区 间也称 为误差 (margin of error), 即是调 查报导 时常提 

到的 ±X%。 抽样 误差本 质上不 是错误 (mistake), 最 完善的 抽样统 计程序 和方法 

都无法 避免抽 样误差 （除 非刚 巧每一 个样本 都具有 和总体 相同的 特征， 那 另当别 
论）。 

在既定 的置信 水平， 影 响其置 信区间 有三个 因素： 样 本大小 (sample size)、 百分 
比 (percentage) 禾 口母体 群规模 (population size) 。 

很明显 较大的 样本数 量更能 确保如 实反映 母体群 的答案 ；也 很明显 最大范 围的样 
本就是 母体群 全部， 但这 是不实 际的， 否 则就无 需抽样 调查这 回事。 但在 既定的 
置信 水平， 样本 越大， 置 信区间 越少； 但 这关系 不是线 性的， 不是 说倍增 样本大 
小 会导致 误差率 减半。 

调查 的准确 度也取 决于样 本选取 一个特 定的答 案的百 分比。 如样本 99% 说 「 是」， 
1% 说 「 否」， 无 论样本 大小， 错误 的机会 是微乎 其微。 然而， 如答 案的百 分比是 



亦 有译为 「信 赖区 间」。 

亦 有译为 「信赖 / 信 心水平 / 水 平」。 



51% 对 49%， 出错 的可能 性要大 得多。 

样本 可能代 表己知 的国家 或城市 人口， 或是 不确切 知道的 准车主 数目。 机 率数学 
证明如 样本是 母体群 的百分 之几， 母体群 的规模 是无关 紧要， 除非 母体群 的规模 
偏小 或是有 既定特 点的已 知群体 （例如 某协会 的成员 ）。 

取样 的黄金 规律是 「随 机」， 真正的 「随 机」。 调 查出错 往往是 因为取 样不是 随机。 
以大家 熟悉的 盖洛普 (Gallup) 调查 为例， 看看 「美 国全 国民意 调查」 是怎 么抽样 



无 论是一 次性或 追踪性 调查， 盖洛 普的取 样是一 千人， 置信区 间为士 
4%， 置信 水平为 95%。 即 使加大 样本， 误 差不会 有很大 差异。 

在 收集数 据后， 盖洛 普依据 美国人 口调查 局的人 口特征 （性 别、 族裔、 
年龄、 学历和 地区） 为每位 受访者 加权。 

例如， 调查一 千名国 民对总 统的支 持率为 50%， 误差为 ±4%， 即是支 
持 率是在 46% 至 54% 之间。 如 样本扩 大至二 千人。 误差 可降至 ±2%， 

但成本 倍增。 

在决定 样本多 少时， 调查机 构必然 要考虑 成本。 最 准确的 民意调 查要涵 
盖全体 国民， 但这 是不切 实际。 

「置信 水平为 95%」 的 意思是 如盖洛 普进行 一百次 同样的 调查， 有九 
十五 次的结 果大致 相同， 只 有五次 不是在 「46% 至 54%」 的 范围。 14 



http://www.gallup.com/poll/10187^/how-does-gallup-polling-work.aspx 
http://www.gallupxom/poll/File/125927/How%20Are%20Polls%20Conducted%20FINALpdf 



Sample Size Calculator 是 Creative Research Systems 的网 上公共 服务， 用来 决定需 

要 多少样 本以反 映目标 母体群 的精确 结果。 只要 点选置 信水平 （95% 或 99%)， 
输入置 信间距 （误差 ） 和 母体群 人数， 就可以 算出所 需样本 大小。 15 。 

网页计 算器要 求输入 以下的 选择， 如 母体群 的规模 庞大或 未知， 可以 留空。 



决 定样本 大小 Determine Sample Size 

置 信水平 Confidence Level: ( )95% ( )99% 
置信 间距 Confidence Interval: 
母体群 Population: 

所 需样本 Sample size needed: 



计算置 信区间 Find Confidence Interval 

置 信水平 Confidence Level: ( )95% ( )99% 
样 本规模 Sample Size: 
母体群 Population: 
百分比 Percentage: 

置 信区间 Confidence Interval: 



不恰 当的调 査问题 

问卷和 电话调 查都是 由访问 者提出 问题， 遣词 用字能 引导受 访者给 出有倾 向性的 
答案。 如 二战期 间的民 意调查 问题为 ： 

• 德国 已进占 法国。 美 国应否 参战？ 

• 日本已 偷袭珍 珠港。 美 国应否 参战？ 
其中的 预设立 场显而 易见。 

另一陷 阱是在 诱导性 提问加 入导向 「理想 答案」 的 数据。 例如 ： 
• 中产家 庭税务 是多年 新高， 你是 否支持 扣减所 得税？ 
• 国 家提出 庞大量 赤字预 算以应 付迫切 需求， 你是 否支持 扣减所 得税？ 



htt p://www. s u rveysyste m • co m/ssca I c • ht m#o n e 



法律 与统计 
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一宗 谋杀官 司突显 了严重 的统计 问答。 虽然 疑犯否 
认他 在犯罪 现场， 但正 面临控 方提出 的指纹 证据。 
指 纹专家 在庭上 被控方 盘问： 「被 告人 的指纹 和其他 
人 的指纹 相同的 机率是 多少？ 」 专家 作答： 「数 十亿 
份之 一。」 辩 方律师 盘问： 「在 犯罪现 场得到 的指纹 
被错误 识别为 某人的 机率是 多少？ 」 专家： 「哦， 大 



一。」 



指纹 证据是 事实， 但识别 指纹是 判断， 不是 事实， 是一门 科学， 并 且由机 率支配 〔 
16 



〈视 频〉 Peter Donnelly: How juries are fooled by statistics 统计如 何迷惑 陪审团 （ 中 

文字幕 ）。 统计 数字如 何错判 「杀婴 案」。 



数据源 ： http://www.nytimes.com/2013^)5^6/opinion/sunday/when-numbers-mislead.html?_r=0 



第二章 精心 挑选的 平均值 

读者 诸君不 是势利 小人， 我 当然不 是地产 代理。 姑且假 设你是 势利暴 富户， 而我 
是地产 代理。 你打 算在我 熟悉的 小区买 房子。 我打量 一下， 小心翼 翼告诉 你这小 
区的业 主住客 平均收 入每年 约一万 英镑。 也 许这引 起你的 兴趣； 无论 如何， 你决 
定买 房子， 也 记住这 年收入 数目。 势利 暴富的 你在告 诉你的 新地址 时也不 经意拋 
出这 数字。 

一年 多后， 我 们又见 面了。 我是 当区地 方税缴 纳人委 员会的 成员， 要求小 区的业 
主住 客签署 请愿书 呼吁不 要增加 地方税 或调低 物业估 值或公 交票价 减价， 理由是 

这超 出小区 居民的 负担， 毕 竟我们 的平均 收入每 年只有 £2000。 

也许你 会附和 我和委 员会的 呼吁； 你不仅 势利， 也懂得 省钱。 但你对 年收入 £2000 
的说 法无法 释怀： 究 竟我是 现在或 是去年 说谎？ 

无论 怎样， 你 不能怪 责我。 利 用统计 数据说 谎就是 这样的 美好。 这 两个数 字都是 
合法的 平均值 average, 合情 合法， 都代表 同样的 数据， 同样的 居民， 同 样的收 
入。 都是一 样的。 很 明显， 至 少其中 一个是 误导， 等 同不折 不扣的 睁眼说 瞎话。 

我的诀 窍是每 次拿出 不同类 型的平 均值； 「平 均值」 有非常 松散的 定义。 打算影 
响 公众舆 论或出 售广告 空间， 这 一招很 管用， 有时 是无心 之失， 但 往往是 故意而 
为。 要清 楚明白 「平均 值」， 先要 知道是 那种平 均值： 平均数 mean, 中位数 median 
或众数 modeo 

我拋 出一万 英镑数 目时是 想提出 一个大 数值： 平均数 是这小 区所有 家庭的 收入的 
算术平 均值： 所 有家户 的收入 总和除 以家户 数目。 中 位数是 较小的 数字： 有一半 
家 庭的收 入多于 £2000， 有一半 少于这 数目。 我也可 以抛出 众数， 这是序 列数据 
最常见 到的。 如这 小区有 最多家 庭的年 收入是 £3000， 每年 £3000 就是 众数。 

在 这种情 况下， 没有 解释的 「平 均值」 是毫无 意义； 收入 数据一 般也是 这样。 有 
另外因 素乱上 添乱： 源 自随着 某些种 类讯息 的平均 值差别 不大， 一 般来说 是无需 

着意 区分。 

如果 有报告 谓某原 始部落 的男性 平均身 高只有 一米， 你会对 他们的 体型有 相当不 
错的 见解， 无需 追问这 是否平 均数， 中 位数或 众数， 三者 的数值 都是差 不多。 （当 
然， 如果 你打算 在非洲 出售工 作服， 就 要有比 平均值 更多的 信息。 这是关 乎全距 



range 禾 口偏差 deviation, 下 一章详 谈。 ) 



处理诸 如许多 人性特 点的数 据时， 不 同的平 均值是 相当接 近所谓 「正 态分布 17 」， 
以曲线 表示其 形状为 钟型； 平 均数， 中位 数和众 数都在 同一点 汇合。 

因此， 如描 述人的 高度， 各 种平均 值是一 样好； 但如 要描述 某城市 居民的 收入， 
也 许是由 些微收 入至二 万英镑 左右， 某地可 能有几 个超级 大户。 超过 95% 的居民 
的 年收入 是在五 千英镑 之下， 曲线 向左侧 倾斜。 这 不再是 对称的 钟型， 而 是被扭 
曲， 形状像 小孩的 滑梯， 梯子急 剧上升 至一个 高峰， 滑下 部分倾 斜逐渐 下降。 平 
均数与 中间数 有相当 距离。 比对 一年的 「平 均数」 和 「中位 数」， 其差异 一目了 
然。 

回到 上文物 业经纪 就小区 居民年 收入拋 出两个 相差颇 大的平 均值， 是因为 分布明 
显 倾斜。 如居民 大多数 是小农 户或打 工一族 或是年 老退休 人士， 但 有三位 百万富 
翁周末 业主， 居民 总收入 的算术 平均数 是极大 数值。 几乎每 个居民 都在平 均数之 
下。 这是 现实， 但 听起来 像笑话 或比喻 而矣。 

因此， 读到 企业或 东主自 白他员 工的平 均工资 是什么 什么， 这数字 可能有 一些意 
思， 也可能 没有。 如数 字是中 间数， 意 思是高 于或低 于中间 数工资 的员工 各占一 
半。 如果是 平均数 （如 没有 说明， 一般 是这个 ）， 所 谓平均 收入是 £25,000 其实没 
有分开 东主的 得益和 和低薪 工人的 工资。 平 均年薪 £3,800 可能 掩盖工 人年薪 
£1,400 以及东 主以高 工资形 式拿走 大部份 利润。 

统 计的语 言伪术 可以把 坏事包 装成为 较好的 外观。 

三 位合伙 人开设 一家小 型制造 企业。 过 去一年 生意非 常好， 支付了 九十名 员工的 
工资 （共 £99,000) 以 及每名 合伙人 工资各 £5,500 后， 余下利 润还有 £ 21,000。 如 
何 描述这 状况？ 为便于 理解， 可以 利用平 均值。 

既然 员工都 做同样 工作， 薪酬没 有太大 差别， 使用平 均数或 中位数 都是差 不多： 
员工平 均工资 £1,100， 合 伙人平 均工资 和利润 £12,500 

这看 起来很 可怕。 换一种 方式。 三位合 伙人分 取利润 £15,000 (余下 £6,000)。 这 
一回以 平均数 计算员 工和合 伙人的 工资： 平 均工资 £1,403， 合 伙人平 均利润 
£2,000。 

啊！ 这 看起来 更好： 利 润不足 6%。 现 在可以 发布， 张贴或 在谈判 中使用 这些数 



normal distribution 



据。 



这 相当粗 糙的例 子极度 简化， 但比 对以会 计之名 做出的 花招， 这不算 什么。 在层 
次 结构和 复杂的 公司， 员工 从打字 员到年 收几百 万美元 奖金的 总裁， 这样 的手法 
可以掩 盖各种 各样的 东西。 

所以， 看 到平均 工资的 数字， 首先 要问： 什么的 平均？ 谁包括 在内？ 美国 钢铁公 

司曾 表示其 员工的 平均周 薪在不 到十年 上升了 107%。 是的， 他们 没说错 一一 但 
只要 注意到 十年前 的数字 包括众 多兼职 工人， 这数字 的意义 就大打 折扣。 如某人 
去年是 半职， 今年是 全职， 他的收 入增加 一倍， 但 工资率 其实是 一样。 

有 报导美 国家庭 的平均 收入是 $6,940。 要明 白这个 数字， 先要知 道何谓 「家 庭」 
以及是 什么平 均值。 （以及 谁这么 说的？ 他怎么 知道？ 数 字是否 准确？ ） 

数字可 能来自 人口普 查局。 局方的 报告全 文说明 这是中 位数， 「家 庭」 指 「住在 
一起两 个或两 个以上 有亲属 关系的 人」。 报告 还说明 数据来 自这样 规模的 样本， 
每二十 个样本 有十九 个的估 计是在 ±71 美元的 范围。 

这机率 和误差 率加起 来是相 当不错 的估计 。调 查局人 员有足 够的技 术和资 源以相 
当精度 程度完 成取样 研究。 想 必他们 没有特 别要遮 掩的。 但 不是所 有的数 字都是 
是 在这样 的情况 下快乐 诞生， 也 不是伴 随着任 何讯息 来说明 如何精 确或不 精确。 
下一章 详解。 

看看 《时代 杂志》 的 〈发 行人的 话〉： 新 订户的 年龄中 位数为 34 岁， 其平 均家庭 
收入 为每年 $7,270。 早前 的调查 发现旧 订户的 年龄中 位数为 41 岁， 平均 收入为 
$9,535 美元。 问题 是为什 么两次 都给出 年龄中 位数， 但刻意 没有说 明收入 采用那 
种平 均值。 

会 否是用 了平均 值以表 达较大 数值， 可以 向广告 商介绍 读者群 是如此 富裕？ 
利 用第一 章的耶 鲁旧生 数据， 猜 猜是采 用了那 一种平 均值。 



补 充材料 



平均值 的误区 

讨论统 计数据 时少不 免提到 「平 均值、 平均 数」。 这名词 的表面 意思很 明显： 平 
均值 就是大 致居中 的一个 数值。 但实际 上有好 几种平 均值。 

平均 而言， 彩 虹是白 色的。 

※算术 平均值 (mathematical average/mean) 是把 所有数 据加在 一起， 再除以 
总体的 样本量 计算。 （3,3,5,4,7) 这 几个数 值的算 术平均 值就是 把总和 (22) 除 
以 5 (因 为有 5 个数值 ）； 算术平 均值是 4.4。 

※中 位数 (median) 是一组 数值从 低到高 排列， 恰好处 在中间 位置的 那个数 
值。 同 上例子 (3,3,5,4,7)， 中 位数是 4， 因 为有两 个数值 (3,3) 比 它小， 两个 
数值 (5,7) 比 它大。 

※众数 (mode) 是 一组数 值中最 常见的 数值。 同上 例子的 众数是 3， 因 为出现 

了 两次。 

算 术平均 值看起 来似是 以上三 种计算 方式最 简单的 一种， 但实际 上不是 这样。 因 
为一组 数据中 如有过 高或过 低数值 （极 端的 数值) 对算 术平均 值产生 很大的 影响。 

※例 如， 统 计一个 小区内 50 户 家庭的 收入。 大多 数家庭 的收入 是每年 
$40,000-60,000， 但有一 家每年 收入是 5 百 万元。 如此 这般的 算术平 均值因 

为 5 百 万元这 个数值 而大大 提高。 

※如 9 个 人各有 1000 元 存款， 第十个 人只有 1 元 存款， 算术平 均值是 900.10 

美元。 

比较可 信的数 据调查 往往去 掉最高 和最低 的数值 才计算 算术平 均值。 但不 是每一 



项调查 都这么 可信。 除非看 到所有 数据或 已去掉 极值的 说明， 最好 不要对 这些数 
据照单 全收。 



中位数 的误区 

中位数 容易有 误区， 因 为和其 他数据 相比， 这 不是很 
明显 过高或 过低。 中 位数处 于中间 位置， 很容 易隐藏 
了那些 很大或 很小的 数值。 例如， 数据是 

0.1,1,2,3,4,5,3000， 中 位数是 3。 

用 中位数 描述某 事件随 时间变 化的程 度时， 容 易遮掩 
事实。 如过去 九年每 年涨价 3%， 但今 年涨价 20%， 中位数 仍然是 3%。 




如总 体样本 数量是 偶数， 计算中 间两个 数值的 平均值 作为中 位数， 可以避 免极值 
的 影响。 



众数 的误区 
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如 数据组 庞大， 较 少机会 出错； 如 数据组 较小， 容 
易有 误区。 

※例 如， 如数 据组数 值都在 1-100 之间， 但 1 出现 

了 3 次， 那么 1 就成为 众数， 虽然 平均值 （这 种情 
况 下比较 敏感） 会接近 50。 



※大规 模调查 可以通 过强调 众数来 操控。 100 受访者 对某产 品的满 意度在 
1-10 之间 打分， 即使打 10 分的 人数比 其他分 的人数 只多了 1 个， 10 就是众 

数。 



> 〔视 频〕 算术平 均数、 中 位数、 众数 之比较 （国语 ) 

> 〔参 考〕 算数平 均数， 中 位数、 众数 



想一想 〈五个 整数〉 

有五个 整数， 其平 均数是 4， 众数是 1， 中 位数是 5。 求 该五个 整数。 
解题 及答案 

既然 众数是 1， 必 然最少 有两个 整数是 1。 因为中 位数是 5， 第三 个整数 必然是 
5。 这个数 字组是 {1, 1, 5, x, y}。 

如平 均数是 4， 五 个整数 的总和 必然是 4x5 =20; 是 l + l + 5 + x + y = 20， 暗 
喻 x + y = 13。 

以下 说明最 简单的 情况: 假设 x 是少于 或等于 y ，如 x = y ，得出 x + x = 13, 2x = 13, 
x = 6.5o 明显 x 是大于 或等于 5， 因此 5 是少于 或等于 x 少于 或等于 6.5。 

因此， 如 x = 5 就会 有两个 众数： 1 和 5。 因此可推论《=6^ = 7， 而这五 个整数 
必然是 {1, 1, 5, 6, 7}。 

数 据源： http://mathschallenge.net/full/average problem 



第三章 不 存在的 小数字 



一位统 计学家 建议， 看到 一顶调 查结果 时就要 质疑： 「前后 有多少 个陪审 团才找 
到这 一个？ 」 

如前 所述， 采用 颇为偏 差的样 本可以 产出几 乎任何 结果； 依常规 的随机 采样， 如 
规 模小而 又多番 使用， 也可以 产生几 乎任何 结果。 

「用家 改用白 齿牌牙 膏后， 蛀 牙减少 23%!」 仔细 阅读， 说 明还声 称调查 结果来 
自令人 放心的 「独 立」 实 验室， 数 据也是 由特许 会计师 认证。 还要什 么更多 证据？ 

然而， 大多 数人从 经验中 知道什 么牌子 的牙膏 都是差 不多。 为何白 齿牌的 用家有 
这样的 声明？ 这广 告是否 说谎？ 没有， 况且广 告不必 说谎。 有更简 单更有 效的方 

法。 

第一 个搅局 的因素 是样本 不足， 不 符合统 计学的 要求。 广告 的小字 说明测 试组群 
只有十 几人。 18 

有些 广告会 忽略这 讯息， 即使精 通统计 也只能 猜想这 是什么 品种的 诡辩。 在类似 
的 情况， 十几 人的的 样本不 是那么 糟糕。 几 年前， 有一 种牙粉 上市， 自称 「矫正 
龋齿 相当成 功。」 当时 的想法 是该牙 粉含有 尿素， 已 由实验 室证明 有效。 这是毫 
无意 义的， 因为这 初步试 验只涉 及六个 案例。 

那么白 齿牌牙 膏没有 说谎， 又如何 得出被 认证的 结果？ 让任 何小组 样本在 半年内 
记 录蛀牙 数目， 然 后改用 白齿牌 牙膏。 只 有三个 必然的 结果： 蛀 牙明显 更多、 明 
显更 少或没 有明显 变化。 如果是 第一或 第三个 情况， 白 齿牌牙 膏把数 据存盘 （在 
看 不见的 地方） 并重复 调查。 迟早， 只 是因为 机率的 操作， 测试组 必然出 现第二 
种 情况， 值 得大吹 大擂， 作 为广告 标题。 无论测 试组是 用苏打 或其他 牙膏， 都会 
出现 第二种 情况。 

利用 小组群 的重要 性是这 样的： 在大组 群机率 产生的 任何差 异很可 能只是 少许， 
不值 得大书 特书。 减 少蛀牙 2% 的 广告不 会让牙 膏大买 特买。 

小规模 样本只 凭机率 产生的 变化， 实在不 能说明 什么。 来一 个小实 验吧。 



译注： 许 多国家 的保护 消费者 法例要 求广告 说明调 査的主 办方， 日期 和样本 数目。 



人人都 知道抛 硬币花 纹朝上 的机率 是一半 一半。 抛硬币 十次， 花纹 朝上的 可能有 

八次， 这 「证 明」 花纹 朝上的 机率是 80%。 牙膏统 计就是 这样。 只拋几 十次， 有 
可 能得出 50% 的 结果， 但不大 可能。 但是， 如 果耐心 抛上一 千次， 几乎可 能极为 
接近 50% (但 不完全 肯定） 的 结果； 这才是 真正的 机率。 要 有相当 数量的 测试， 
平 均规律 才可以 是有用 的描述 或预测 。 

多 少次测 试才算 足够？ 这 是棘手 问题， 取决于 受采样 调查的 母体群 其数量 和其中 
差异的 程度。 有时， 样 本的数 目并不 是表里 如一。 

几年前 有一个 显著的 例子是 关于脊 髓灰质 炎疫苗 的试验 。这 似乎是 一个令 人印象 
深刻 的大规 模医学 试验： 450 名儿 童接种 疫苗， 对 照组是 680 没有 接种的 儿童。 
此后 不久， 小区 爆发流 行病。 曾接 种疫苗 的儿童 没有一 人感染 小儿麻 痹症。 

但 对照组 的儿童 也没有 感染。 在 设计试 验时， 相关人 员忽视 或不理 解麻痹 性脊髓 
灰 质炎的 发病率 较低。 以一般 发病率 计算， 这 规模的 母体群 只预期 有两宗 病例。 
因此 这测试 从一开 始就注 定没有 意义。 测试母 体群要 有十五 或二十 五倍的 规模才 
可以得 出稍有 意义的 答案。 

许 多伟大 的医学 发现曾 在类似 的情况 下急急 出台。 正如一 位名医 所说： 「要 赶快 
采用 新医疗 措施， 以免 为时过 晚。」 19 

犯错的 不限于 医学界 。公 众压力 和草率 报导往 往迫使 未经证 实有效 的治疗 提前发 
动， 尤其 面对当 前庞大 需求而 统计数 据朦胧 不清。 几 年前的 感冒疫 苗和近 年的抗 
组织胺 药就是 例子。 这些 失败的 「灵 药」 之深受 欢迎， 主要 是因为 疾病的 不可靠 
本质和 逻辑的 缺陷。 感 冒无需 吃药， 过 几天就 会自我 治愈。 

如何 避免被 不确定 的结果 愚弄？ 不可能 人人是 统计学 家懂得 研究原 始数据 。有一 
个 很容易 理解的 显著性 检验： 究竟报 告的测 试数字 有多大 可能是 真实的 结果， 而 
不 是偶然 产生。 这是 非专业 人士不 明白而 且不存 在的小 数字。 

如讯息 来源有 给出显 著水平 2Q ， 就 更容易 掌握。 显著 水平最 简单的 表达方 式是机 
率。 人 口普查 局给出 「机 率为 19/^0」， 表明具 体的精 确度。 在大 多数情 况下， 这 
5% 显 著性水 平已经 够好。 有一些 较严格 的要求 99/100 的 机率， 这 意味着 确切显 
著差异 机率为 1%， 这 有时被 描述为 「实际 肯定」 21 。 



} 传闻这 句话出 自 William Osier 爵士和 Edward Livingston。 他们都 同是医 生和这 方面的 权威。 
) degree of significance 
practically certain 



还有 另外一 种可能 同样有 害的不 存在小 数字。 这小数 字说明 事件的 范围或 其与平 
均值的 偏差。 平均值 （无论 是平均 数或中 位数， 具 体或不 具体） 往 往流于 过于简 
化， 比 无用更 糟糕。 一 无所知 通常好 于一知 半解； 只 知皮毛 可能是 危险的 事情。 

例 如因为 统计数 据家庭 有三至 六人， 据 此规划 建房， 房子有 两间卧 室供三 至四人 
居住。 这 「平 均」 规模的 家庭实 际上只 是家庭 总数的 少数。 为 「平 均」 家 庭建造 
房子， 而忽 视人数 较多或 较少的 家庭； 一些 地区已 经有过 多两间 卧室的 房子， 而 
较小 和较大 的单位 不足。 这 误导而 又不完 善的统 计已导 致代价 高昂的 后果。 公共 

健 康小组 指出： 「算术 平均值 歪曲了 实际的 情况： 三人和 四人家 庭只有 45%。 35% 
是一人 及二人 家庭， 20% 是 四人以 上。」 

人 们面对 「三至 六人」 的权威 数字， 莫 名其妙 地失去 理智， 抵消了 人们从 观察中 
得知的 印象： 很多小 家庭， 少许大 家庭。 

类 似的不 存在小 数字情 况是令 无数父 母担心 的所谓 「格塞 我常模 22 」。 家 长在周 
刊和报 章读到 小孩三 个月大 学会坐 起来， 立即 就想到 自己的 小孩。 如小孩 三个月 
大还 没有坐 起来， 家长 往往得 出结论 小孩是 「弱 智」 或 「不 正常」 等等令 人反感 
的 顾虑。 由于小 孩必然 有一半 到了三 个月大 不会坐 起来， 很多 父母不 开心。 当然， 
从 数学上 来说， 有另 一半的 父母发 现自己 的小孩 「胜 于他 人」， 他 们的喜 悦平衡 
了 前一半 父母的 忧愁。 如忧愁 的父母 强迫小 孩符合 常模， 会适得 其反。 

这 一切并 不是说 Arnold Gesell 医 生和他 的方法 有什么 问题。 问题出 自耸人 听闻或 

学艺不 精的作 家过滤 了研究 人员的 讯息， 未 有留意 在这过 程中消 失了的 数字。 如 
果这些 「常 模」 或平均 值能补 上正常 范围的 说明就 可以避 免很多 误解。 父 母看到 
自 己的小 孩是属 于正常 范围， 不 会担心 那些微 小而无 意义的 差异。 几乎没 有人在 
任 何方面 是完全 正常， 就 像拋硬 币一百 次很难 会得出 五十次 是花纹 向上。 

混淆了 「正 常」 与 「理 想」 让 这一切 变得更 糟糕。 Gesell 医 生只是 简单说 明一些 
观 察到的 事实； 只 是担心 的父母 在阅读 书籍和 文章时 以为小 孩坐起 来比常 模慢了 
一天或 一个月 必然是 比别人 逊色。 

对金赛 性学博 士的大 多数愚 蠢批评 （其实 很少人 曾透彻 阅读） 来自把 「正 常」 等 
同 良好， 优异， 可取。 金 赛博士 被指控 把各种 常见但 不受认 可的性 行视为 正常， 
因 而荼毒 青年人 心灵， 向他 们灌输 有害的 思想。 但他 只是陈 述他认 为这些 是正常 
活动； 这 正正是 「正 常」 的 意思， 他 没有加 上任何 「认 可」 的 印章。 他不 认为他 
是判断 这些行 为是否 「不 可取」 的 权威。 博士 碰上了 一直困 扰着许 多其他 观察员 
的危险 难题： 提 出任何 情感敏 感的内 容而不 另行草 草陈述 你是否 支持或 反对。 



Gesell's norms 



不存在 的小数 字其欺 骗性不 是因为 没人留 意这不 存在， 虽然 这是小 数字成 功的秘 
诀。 现今 对新闻 工作者 的批评 是谴责 「坐 在办 公室的 记者」 不再 如老派 记者去 「跑 
新 闻」， 而是不 加批判 地重新 编写政 府的新 闻稿。 以 下的不 思进取 新闻样 本来自 
新 闻杂志 《双 周刊》 〈工 业新 发展： 西 屋公司 冷浴法 增强钢 硬度三 倍〉。 

这听 起来像 不错的 发展， 直 到读者 试图明 白这 是什么 意思， 这 句子变 得难以 捉摸。 
新浴 法是否 在处理 后增强 钢硬度 三倍？ 抑或 生产的 钢铁其 硬度是 三倍以 前的任 
何 钢铁？ 冷浴法 有什么 作用？ 看来， 记者只 是传递 文字， 没有探 讨其中 意思， 而 
是 期望读 者水过 鸭背， 看 过了就 以为快 乐地学 懂一些 什么。 这让人 联想到 课堂教 
学讲授 法的旧 定义： 教师把 教科书 内容传 送到学 生的笔 记本计 算机， 双方 都没有 
动脑筋 的一个 过程。 

几分 钟前， 我寻找 《时 代》 周刊 一些关 于金赛 博士资 料时， 发现另 一不堪 细看的 

语句。 这 是电力 公司在 1948 年的 广告： 「时至 今日， 超过四 分之三 的美国 农场有 
电力可 用」。 这听 起来很 不错。 这些电 力公司 真的很 卖力。 当然， 小心眼 的可以 
意译为 「几 乎四分 之一的 美国农 场没有 电力可 用」。 但是， 真正的 噱头是 「可 用」 
这个 词语； 电力 公司利 用这词 语自说 自话。 明 显地这 并不意 味着所 有这些 农民实 
际 上用上 电力； 若然是 这样， 广 告肯定 会明确 说明。 所谓 「可 用」 可能只 是意味 
着 电线挂 在农场 的上空 或是十 或百里 的距离 。 

这是 流行杂 志一篇 文章的 标题： 〈现在 可以预 测你的 子女将 来有多 高〉。 文 章的显 
眼处展 示一对 图表： 一个是 男孩， 一个是 女孩， 显示 孩子成 长期的 身高会 是最终 
身高的 比例。 「要 确定 孩子成 长后的 身高， 核对 现在的 测量高 度。」 

这文 章和图 表的致 命弱点 是忽略 了不是 所有孩 子都是 以同样 的方式 长高。 有些慢 
慢 长高后 加快， 有 些突然 长高一 段时间 然后趋 于平稳 缓慢， 还有一 些是相 对稳定 
的 长高。 这 些是基 于大量 测量结 果的平 均值。 以 总数或 平均数 计算， 随机 取样一 
百名年 轻人的 高度这 毫无疑 问是准 确的， 但 父母感 兴趣的 只在某 时刻的 高度， 这 
样的图 表几乎 是一文 不值。 想知道 孩子将 来会有 多高， 观察 他的父 母和袓 父母可 
能得出 更好的 猜测。 这 不是很 科学和 准确， 但至少 比图表 准确。 

我 十四岁 时参加 高中军 训班， 按身高 排在矮 子班， 按图 表我最 终身高 应该是 5 
英呎 8 英吋。 现 在我是 5 英呎 11 英吋。 预测身 高有三 英吋的 错误是 极为差 劲的。 




有两 盒葡萄 + 坚果 + 麦片的 早餐 食品， 不同的 包装， 都有 「科学 家证明 这是真 的！」 
的图 表标榜 「在 两分钟 内开始 给你能 量！」 左图 表在左 边列出 数字， 右图 省略了 
数字。 数字 没有说 明代表 什么， 没有 意思； 反正 两个图 表都没 有特别 意思。 图表 
显示陡 峭的攀 爬线， 分别 显示在 进食后 一分钟 （左图 ） 和 两分钟 （右图 ） 后能量 
释放。 左 图的能 量线爬 升约快 一倍， 这 表明绘 图人员 没有想 到这些 图表是 什么意 
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以数百 万美元 增加， 或是 以蜗牛 速度每 



这 种愚蠢 图表可 能只是 想吸引 青少年 
或 早上半 梦半醒 的疲惫 家长。 没 有人会 

用 这样的 统计图 来侮辱 大商巨 贾的智 
慧吧… 或者 会吧？ 《财 富》 杂志 的广告 
宣 传栏经 常刊载 某机构 业务逐 年上升 
趋势的 令人印 象深刻 图表。 图表 没有数 
字。 究竟这 是业务 增加一 倍或一 年逐年 
只 增加一 两元， 不得 而知。 



如平均 值或图 形或趋 势没有 包含一 些重要 数字， 就 要加倍 小心。 露 营人士 不会依 

赖 平均温 度的报 告选择 营地。 61°C 是舒适 的平均 温度， 在加 州的可 选范围 包括内 
陆沙漠 和海岸 离岛。 但 中间数 忽略了 范围： 内陆沙 漠的温 度范围 15 〜： L04°C， 海 
岸 离岛是 47〜87°C。 



第四章 为了子 虚乌有 无事忙 



Josiah Stamp 爵 士记述 Randolph 勋 爵研究 收入的 报告。 他的 私人秘 书一直 站在旁 

边。 勋 爵说： 海关 收入比 去年同 期增长 34%， 令人 欣慰。 秘书纠 正他， 指 出这只 
是 *34%。 

「这 有什么 区别？ 」 勋爵 问道。 秘 书解释 34 是 *34 的一 百倍， 勋 爵说： 「我 经常 

看 见那些 该死的 小点， 但 从来不 知道他 们的意 思。」 

小 数点和 其他该 死的差 异突然 出现， 困扰 着测试 成绩的 比较。 不介意 的话， 提一 
个 例子。 国光和 美莲参 加智力 测验。 很多学 生在求 学时期 都会参 加类似 测验， 已 
成 为这个 时代的 主要巫 术偶像 之一， 可 能要争 论要花 功夫才 能找出 测试的 结果； 
讯息 是如此 深奥， 经 常被认 为要交 由心理 学家和 教育学 家处理 才是安 全的。 无论 
怎样， 国光 测试的 智商是 98， 美莲是 101。 当然， 智商 是基于 100 的 平均或 「正 
常」 水平 计算。 

啊！ 美 莲是聪 明的， 高 于平均 水平； 国光低 于平均 水平。 不 要纠缠 于这些 结论， 
因 为任何 这样的 结论都 是无稽 之谈。 

先要说 清楚： 无论 智力测 验计量 的什么 东西， 并 不是我 们一般 以为的 智力。 智力 
测 验忽略 了一些 重要的 事情， 例如 领导力 和创造 性的想 象力， 没有 考虑到 社交场 
合 的判断 能力， 或是 音乐、 艺术 或其他 能力的 倾向， 更不要 说努力 处事和 情绪平 
衡 等性格 特征。 最重 要的是 学校最 经常给 出的测 试是阅 读测试 （快速 和便宜 ）； 
慢读的 学生不 可能拿 高分。 

假设 我们已 经认识 这一切 缺点， 并同意 智商仅 仅只是 计量一 些定义 含糊， 处理抽 
象 问题的 能力。 也 假设国 光和美 莲参加 的是一 般认为 是最好 的个别 测试， 并且不 
要求任 何特定 的阅读 能力。 

智 商测试 声言是 智力的 采样。 一如 任何其 他抽样 方法的 产品， 智商 是一个 有统计 
误差的 数字， 误差 影响智 商数字 的精确 度和可 靠性。 

这 些试题 就像随 机在农 田采摘 玉米， 采摘了 一百条 玉米， 应 当对这 块农田 的种植 
状 态心中 有数。 这 样的讯 息已足 以和其 他玉米 田比较 （如 两块玉 米田不 是很相 
似）。 如 两块农 田差别 不大， 可 能要采 摘更多 玉米， 并以一 些确切 的质量 标准评 
价 采摘的 样本。 



玉 米样本 能如何 准确代 表整块 农田， 可以用 可能误 差和标 准误差 23 的数字 表达。 
假设要 在栅栏 以外目 测许多 农田的 大小， 第一 件事可 能是先 测量步 行一百 码的误 
差。 如 经多次 步测， 发现误 差的平 均值是 三码， 即是 说步测 有一半 是超出 三码， 
一半 是少了 三码。 

那么 能误差 是每一 百码有 三码， 或 3%， 因此记 录步测 结果是 100±3 码。 （大多 
数 统计学 家现在 更喜欢 用另一 种但相 等的标 准误差 24 ， 只 算计约 三分之 二的事 
件， 而 不是一 半半， 在数学 计算方 面更为 方便。 本 书集中 在可能 误差， 
Stanford-Binet 测验 也是这 样使用 。 ） 

一 如以上 的步测 例子， Stanford-Binet 智 商测验 的可能 错误已 证实为 3%。 这不是 

关乎 测验的 优劣， 基本 上只是 表达测 验是否 一致。 所 以国光 的智商 可以更 充分地 
表达为 98 士 3， 美莲是 101 士 3。 

这 是说国 光的智 商是在 95 〜： L01 的范围 ，他在 这范围 内可能 是高于 或低于 任一智 
商 数字， 机会 均等。 从而 可见美 莲的智 商高于 或低于 98 〜： L04 范围 任一智 商数字 
的机 会也是 均等。 国光智 商高于 101 有 V4 机会， 美 莲的智 商低于 98 也 是有] /4 
机会。 有 3% 以上 机会国 光不是 逊色， 而是 优异。 

这归 纳为解 读智商 和许多 其他采 样结果 的唯一 方法是 在范围 之内。 「正 常」 不是 
100, 而是 90〜80 (举 例而言 ）， 也就 是说比 较在这 范围内 和在较 低或较 高范围 
的 儿童才 有一些 意义。 比较 只有极 小差异 的数字 是没有 意义。 必 须始终 记住这 
士 符号， 即使 （或尤 其是） 没 有特别 说明。 

无视 这些隐 含在所 有采样 研究的 误差， 只会导 致了一 些极为 愚蠢的 行为。 有杂志 
编辑 奉读者 调查为 福音， 主要 是因为 他们不 理解。 男 读者有 40% 偏 爱一篇 报导， 
只有 35% 喜欢另 一篇， 他们要 求更多 类似第 一篇的 报导。 

对杂志 来说， 读者的 35% 和 40% 之间的 差异可 能是重 要的， 但调查 中的差 别可能 
不是真 实的。 为 了节省 成本， 读者样 本往往 减少到 只有几 百人， 尤 其是淘 汰了那 
些谁根 本不看 杂志的 人们。 主要 吸引妇 女的杂 志其男 读者样 本的数 目可以 是非常 
小。 这些再 细分为 「阅读 全部文 章」， 「阅 读大 多数文 章」， 「阅 读一些 文章」 和 「不 
看 文章」 各 分类， 那 35% 的结 论可能 只是根 据极少 样本。 隐 藏在这 些数字 背后的 
可能 误差会 是如此 之大， 依赖这 结论的 编辑等 同瞎子 摸象。 



probable error and the standard error 
standard error 



有时， 人们 为了一 些数学 上是真 实和显 著但是 如此微 小以至 没有意 义的差 异而大 
费 周折。 这 违背了 古语的 智慧： 「差异 如会导 致差异 才是差 异」。 一 个典型 例子是 
「老 金牌」 香 烟为了 一些子 虚乌有 的事情 而吵吵 闹闹， 并从中 获利。 

《读者 文摘》 的抽烟 编辑无 意中开 始这场 闹剧。 他们 本来认 为所有 牌子的 香烟都 
是一 样的。 杂 志委托 实验室 分析几 个牌子 香烟的 浓烟， 并公布 结果： 全部 牌子香 
烟 的尼古 丁和诸 如此类 东西的 内容。 杂志详 列详尽 数字， 证 明所有 牌子的 香烟实 
际 上是相 同的， 抽 那一个 牌子没 有任何 区别。 

你可 能认为 这是对 卷烟制 造商和 构思新 广告角 度的广 告公司 是一大 打击， 这似乎 
完全 推翻了 香烟舒 缓喉咙 和对人 体无害 的广告 声言。 

但 有人发 现在几 乎相同 毒素含 量的列 表中， 有一 牌子的 香烟必 然排名 最低； 这就 
是 「老金 牌」。 于是报 章出现 了最大 标题的 广告， 标 示这本 全国通 行的杂 志测试 
所有 香烟， 「老 金牌」 含有最 少数量 的不良 物体， 但 剔除了 这些差 异可以 忽略不 
计的 说明。 最后， 「老 金牌」 被 责令终 止这种 误导性 广告。 这并没 有任何 影响； 
「老 金牌」 已从 中得到 好处。 



补 充材料 

以会 员制组 织的公 司讨论 业积。 营销部 门的统 计显示 上月的 新会员 人数是 全年最 
高。 这只 是部分 正确。 翻查 记录， 前 两个月 的退会 人数也 是整年 最高， 会 员人数 
基本 持平。 上月的 新会员 人数也 是与去 年同期 相若， 表明这 不是新 趋势。 25 



数据源 ： http://zestsms.com/about/blog/statistically-irrelevant/ 



第五章 啧 啧称奇 的图形 



数 字是恐 怖的。 小 矮胖信 心满满 告诉艾 丽斯， 他是 文字的 主人； 但 许多人 对数字 
没有 同样的 信心。 也许 这要回 溯我们 早期数 学经验 导致的 创伤。 

不管 是什么 原因， 这 对于渴 望读者 众多的 作家， 计 划广告 能多卖 货物的 公司， 期 
望书籍 或杂志 大受欢 迎的出 版商， 这确实 是一个 真正的 问题。 常见 的情况 是表格 
形式的 数字是 禁忌， 文 字又未 能充份 表达， 往往只 有一个 答案： 插图。 

最简单 的统计 插图， 或图形 graph, 是 不同的 线条， 用 于显示 趋势很 有用， 实际 

上大家 都有兴 趣利用 图形去 知道或 表达或 指出或 谴责或 预测。 



以 下图形 显示国 民收入 如何在 一年之 内增加 10%。 



先划出 方格， 底 线写下 月份， 左 边标示 「以 十亿元 计」。 在方格 标出数 据点， 连 
起 来完成 图形： 



这很 清楚， 表 明年内 发生了 什么， 并且 标明每 
个月的 升幅。 人 人容易 理解， 因 为整个 图形是 
按 比例， 而且 底线有 0 值作为 比较。 10% 看来 
就是 10%: 上升趋 势是实 质的但 也许不 是压倒 

性。 



如 果只是 想传达 讯息， 这是非 常好。 但是， 假 
如 想赢得 争论， 震撼 读者， 促使他 转化为 行动， 
卖东西 给他， 这图 形不够 夸张。 斫掉 底部。 



这更象 样了。 （也 减少 用纸； 这是 向挑剔 
人士反 对这误 导性图 形的好 理由。 ） 数字 
相同， 曲线也 相同， 图形也 相同。 没有什 
么是 伪造的 - 除了 给出的 印象。 匆促的 
读者 只看到 国民收 入线十 二个月 爬升了 一半的 篇幅， 这是因 为已经 不见了 被裁掉 
的部份 图形。 一如 语法课 中的缺 失句子 部分， 这是 「不 言而 喻」。 当然， 眼睛不 
「理 解」 不 存在的 东西； 小小 的增长 在视觉 上成为 大大的 增长。 




既然 练习了 欺骗， 为 什么停 下来？ 还有 进一步 的伎俩 可用， 让 微薄的 10% 看起来 



更活 泼有力 。 简单 地改变 纵坐标 和横坐 标之间 的 比例 。 没有任 何规则 反对这 样做， 

并且 给出更 漂亮的 图形。 要 做的只 是把纵 坐标答 比例从 2 元 改写为 0.2 元。 
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这令 人印象 深刻， 是 不是？ 读者会 感到全 国经济 繁荣。 

这 是改写 「 国 民收 入上升 10%」 为 「 国 民收 入急增 10%」 。 

这更 有效， 因 为没有 包含任 何形容 词或副 词破坏 客观性 
的 幻想。 没有 人可指 责你。 



这样 的例子 不止一 



水 



吖分 新闻杂 志用同 样方法 显示股 市创下 新高， 图形被 截断， 



以使看 起来攀 升得更 利害。 哥 伦比亚 天然气 公司的 「我们 新年度 报告」 的 重刊图 

表。 如 果仔细 阅读和 分析小 数字， 会 发现十 年内生 活成本 上升约 60%， 而 天然气 
的成本 下降了 4%。 很 不错， 但显 然哥伦 比亚天 然气认 为还不 够好， 于是在 90% 
砍掉 了图表 （没有 缝隙或 其他警 告指示 ）。 所以， 读 者见到 的是： 生活成 本增加 
了两 倍多， 天然气 成本下 降三分 之一！ 



Govt pay rolls up I 



Govt, pay rolls stable ！ 




I < 3 ° 2 



193 



政府 薪资大 幅增加 



政府薪 资平稳 



钢铁企 业曾使 用类似 的误导 图形试 图影响 舆论反 对工资 上涨。 这 不是新 手法， 很 
久 以前已 有这样 的不当 行为， 不 仅只是 在统计 学专业 期刊。 《邓氏 评论》 主笔早 

在 1938 年看出 左图的 破绽： 标题是 「政府 薪资大 幅增加 ！」， 曲线 从底部 急升至 
顶部， 使 得增加 4% 的 样子看 来超过 400%。 右国 是修正 图形： 给出了 相同的 数字， 
诚实的 红线仅 上涨了 4%， 标题 改写为 「政府 薪资平 稳」。 
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补 充材料 



图形 的误区 



在统计 学中， 误导图 形也称 为扭曲 图形， 歪曲了 数据， 构 成统计 误用， 导 致不正 

确 结论。 



图形误 导可能 是因为 过分复 杂或制 作粗糙 ，但 精心泡 制的图 形也可 以导致 不同解 
释。 误导 性图形 可能是 故意， 以隐瞒 数据； 或 是无心 之失： 错用 了绘图 软件， 错 
解 数据， 或是数 据不适 合图形 表达。 〔虚 假〕 广告特 多用上 误导性 图形。 



美国统 计学家 Edward Tufte 创造了 「垃 圾图表 chartjunk」 这个 新字： 

「图形 的室内 装修占 据大量 篇幅， 但没 有告知 读音什 么新的 东西。 装饰 
的 目的各 不相同 - 使图 形看起 来更加 科学和 严谨， 使表 达显得 活泼， 
让设计 师有机 会展现 技能。 不管其 原因， 这 些篇幅 都不是 数据或 只是冗 
余 数据， 并且 往往是 chartjunk。 ...Chartjunk 可以把 沉闷数 据变得 惨不忍 
睹， 但不能 遮掩数 据之不 足。」 26 

不当使 用图形 



不需用 图形 而使用 图形可 能导致 不必要 的混乱 / 
解释。 一般情 况下， 图 形要配 上越多 解释， 这图 
形的 实际需 求其实 越少。 图 形表达 不总是 比列表 
更 好表达 讯息。 27 




Gun deaths in Florida 

Number of murders committed using firearms 




偏颇 的图形 

偏颇 的图形 标题， 卷标 或标题 不恰当 地误导 读者。 
左图是 美国佛 罗里达 州因枪 击致死 的统计 图形。 骤眼 

看来， 在 2005 年订立 「市 民自 卫法」 后， 枪 击致死 
事件 从高位 回落。 仔细 一看， 这 图形违 反一般 常规， 
直 轴是从 800 倒数至 0! 数 据是真 实的， 但严重 误导。 



28 



12010s 



Source: Florida Department of Law Enforcement 



26 



The Visual Display of Quantitative Information. 
插图 耳又自 http://www.theusrus.de/Blog-files/pie_chart.jpg 
http://www.livescience.com/45083-misleading-gun-death-chart.html 



饼图 的误区 




$ 士 5B 士 B 士 A 簾 B 簾 C 黨 



饼 图最重 要的功 能在于 呈现整 体中各 部份的 组成和 比例。 其实 条形图 (bar chart) 

更适合 比较各 个组成 部份的 差异； 虽然 读者熟 悉时钟 角度， 但还是 比不上 对于长 
度的 感受。 如 果不看 数字， 条形 图比较 容易看 出学士 人数是 硕士的 两倍， 硕士是 
博士的 三倍。 29 



Edward Tufte 在有 这样的 说法: 



「表达 小的数 据集， 列 表比图 形图好 很多。 列表几 乎总是 优于愚 蠢的饼 
图； 唯一比 饼图更 糟糕的 是几个 饼图， 因为 读者要 在多个 图形之 间的混 
乱空间 要作出 比较。 图 形图的 数据密 度低， 又不能 在视觉 层面把 数值排 
序， 因此不 应该使 用。」 30 



这一段 和下一 段以及 黑白插 图取自 〈饼 图的使 用〉， 略有 改写。 

The Visual Display of Quantitative Information p. 178 



第六章 



维图形 



上 一代时 常提到 「小人 物」， 即 是所有 的人。 这听起 来太白 鸽眼， 我 们成为 「老 
百 姓」。 这也 很快被 遗忘， 现在 我们是 「国 民、 公民、 市 民」。 但 「小 人物」 依然 
存在； 他 就是图 形上的 人像。 

图形 选择形 象化， 以一个 小人代 表一百 万人， 一个钱 袋或一 堆硬币 代表一 千英镑 
或 一百万 美元， 一块 牛排代 表明年 的牛肉 供应； 这 些全是 图形统 计图表 31 ， 一种 
有用的 设备， 吸引 注意， 也能 够成为 流畅， 狡猾和 成功的 骗子。 

图形统 计表源 自普通 条形图 32 ， 用于表 达和比 较两个 或两个 以上数 据的简 单和流 

行 方法。 

条形图 也能够 瞒骗。 如图 形只表 达一个 因素， 但 改变了 条形的 宽度和 长度， 或以 
体 积难以 比较的 三维对 象代替 条形， 这图 形值得 怀疑。 被截 断的条 形图一 如被截 
断 的线形 图同样 的启人 疑窦。 地 理书， 公司 声明和 新闻杂 志往往 用上条 形图， 也 
用 上吸引 眼睛的 图形统 计图。 



如 目的在 于沟通 讯息， 条 形图已 可满足 要求。 但 我想要 更多。 我想 说的是 英国工 

人 的待遇 远远比 Rotundian 更好， 我越 能戏剧 化表达 £15 和 £30 的 区别， 我的 

论点 越引人 注目。 说实话 （当然 我不打 算这样 做）， 我希望 你从图 形推断 出一些 
东西， 让 你得到 夸张的 印象， 但 我不想 被你看 破我的 招数。 有一种 方法， 而且每 
天 都有人 这样欺 骗你。 

我 只是画 一个钱 袋表示 Rotundian 的 £15， 又 画一个 大一倍 的钱袋 代表英 国人的 

£30。 这 是按比 例的， 是 不是？ 我 追求的 是你的 感觉。 英国 工人的 工资远 远多于 
外 国人。 




条形图 



不是 欺骗， 只是戏 剧化! 



pictorial graph or pictograph 
bar chart 



当 中的诡 计是这 样的。 因为 第二个 钱袋是 第一个 的两倍 高和两 倍宽， 占用 篇幅不 
是 两倍， 而是 四倍。 数字依 然是二 对一， 但占 据主导 地位的 视觉印 象是四 比一， 
或者 更多。 因 为这些 三维图 像是立 体的， 第二个 钱袋的 厚度必 然是第 一个的 两倍。 

几何教 科书指 出类似 立体的 体积随 着任何 维度的 立方而 改变： 2x2x2=8。 如第一 
个 钱袋有 £15， 第二 个应有 £120。 

那确实 是这巧 妙小图 给出的 印象。 虽 然是说 「两 倍」， 我实 际留下 了八比 一压倒 
性比例 的持久 印象。 

你 也很难 指责我 我有任 何犯罪 意图。 我只 是随波 逐流。 新 闻杂志 反复这 样做， 一 
如 上例的 钱袋。 



补 充材料 



很多 统计图 形不适 合三维 (3D) 形式， 饼 图特别 如此。 由于 消失点 效果， 即 使同样 
大小， 3D 饼图靠 近读者 的部份 会看起 来比较 大块， 较远的 部份比 较小。 这扭曲 
了 数据的 呈现。 只是 为了美 观而牺 牲精准 表达， 说不 过去。 下面的 例子说 明这现 
象： 



误导的 3D 饼图 正常 的饼图 




3D 饼图的 C 项似 乎是和 A 项不相 上下， 而实际 上不及 一半。 
不正确 的缩放 

条 形图使 用象形 比例， 不 应均匀 缩放， 因为 这导致 误导性 比较。 读 者看到 的是象 
形图的 面积， 而不是 高度或 宽度， 导致比 例以平 方面积 解读。 



条形图 的不正 确缩放 2D 象 形图形 



不正 确縮放 


正规 


比较 


3- 
2- 
1- 




3- 
2- 
1- 




3- 
2- 
1- 






A B 




A B 




A B 


条形 图 的不 正确缩 放象形 图 ： 


B 实 际上是 A 的 9 倍。 



2D 形状 的缩 放比较 



方形 


圆形 


三角形 


2x 

lx 


3x 


I f 2x\ I 


/ \ 3x\ 
A 2x\ \ 
/lx \ 


留意缩 放比例 影响对 面积〕 


^ 小的 感觉。 



3D 象形 图不当 缩放导 致立方 效果。 



Home Sales 

有直 




这 3D 象形 图显示 2001 年房屋 销售比 去年有 增长。 因为没 
轴 说明， 读者无 法理解 变化； 两 倍的缩 放看来 是八倍 (2 3 )。 



2000 2001 

不当 缩放的 3D 象 形图误 导读者 以为项 目实际 上改变 了大小 



误导 


正规 


Banan< 




Banan< 




Apple 


0000 


Apple 


0000 


Cherry 




Cherry 




因 为缩放 效果， 似乎看 来香蕉 的数量 较多。 



还 有这些 例子: 



i 1f 

Old g W.,n,<n v 、"'r、 II 

W OI<l .m<! (h<r 



Sonne: United States Ihtreau of the Census 

Fio. (/». Ages or Womk.n i\ thr Umii d Srvii'.、， 
(Pictorial Solid Diagram ) 



以 人像表 达人数 
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World Asia 



Americas Europe Oceania 



人 形表达 
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垃圾 增长率 
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几 多倍？ 



36 



截 断图形 truncated graph (也 称为 撕裂图 torn graph) 的直轴 （y 轴） 不是从 0 

开始， 可 用于显 示微小 的变化 或节省 空间， 但 可能导 致把少 许变化 错认为 重要变 
化 的错误 印象。 如 数值是 在狭窄 范围， 有 些软件 （如 MS Excel) 其 默认功 能会自 
动制 作截断 图形。 



截断 条形图 



正规 条形图 




Mill 



两个图 形显示 相同的 数据； 然而， 左侧的 截断图 似乎表 明数据 有显著 差异， 
而 这在右 边的正 规条形 图是几 乎不可 见的。 



http://www.timwallacejnfo/b/wp-content/uploads/201^^womendiagram.jpg 
http://yale.edu/ynhti/curriculum/images/2005/6y08.06.06.03.jpg 

http://www.conceptdraw.com/solutii 

http:〃yale.edu/ynhti/curriculum/images/200^6/D8.06.06.11.jpg 



应 适当提 醒读者 直轴被 截断。 




改 变直轴 的最大 数值会 导致不 同的 感觉。 

改变 y 轴的 最大值 



原图形 


较小的 最大值 


较大的 最大值 
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改变 图形长 阔 比例会 导致不 同的 感觉。 



原图形 


阔度 减半、 高 度加倍 


阔度 加倍、 高 度减半 
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没有 比例 的 图形 往往用 于 夸大或 减轻项 目 差异 的感觉 。 



看来差 异较小 



看来差 异较大 




150 



120 




A B 



A B 



直 轴没有 标示， 不 能确定 是否从 0 幵始， 也 不能确 定图形 是否被 截断。 

同样的 差异， 不同 比例导 致不同 感觉。 



另一 例子: 



增长有 上有落 


增长稳 定快速 


增 长缓慢 
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这三个 图形表 达同样 数据， 因 而数据 的实际 (x， y) 斜 率是一 样的， 


但因为 各自的 直轴比 例不同 （没 有标示 ）， 所以视 觉上有 不同的 斜率。 受 操控的 误导。 



〜r,/ . t.t—t \rft >izzi 

数 据遗漏 



遗 漏了数 据的图 形就是 误导的 图形， 不 能从中 得出正 确结论 ( 



遗漏 数据的 散点图 (scatter plot) 



正规 散点图 



OOOOOOOOOOOO 
OOOOOOOOOOHH 



左图 遗漏了 四年的 数据， 增长 线显得 平滑。 



不正当 的割图 



从 其他图 形抽出 部份为 割图， 应保留 （有时 强调） 原来 的特征 ( 



原图形 



割图 
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割 图只抽 出原图 部份， 没有准 确表达 原意。 



剪裁数 据和扭 曲图形 



The Great Retrenchment 




Median Income foi U.S. Men by Age. in 2012 Dolars. Source: U.S. 
Census Buieau 



2013 年， 彭博 通讯社 企业及 市场编 辑发表 
署 名文章 〈美 国男士 四十年 来收入 下降〉 
For U.S. Men, 40 Years of Falling Income, 附 

上插 图说明 三个年 龄组群 的美国 男士的 
中位 数收入 下降， 下降斜 率颇为 惊人。 文 
章集 中讨论 1972 年和 2012 两年的 数据。 



数据来 自美国 人口调 查局， 彭博 是有声 誉的通 讯社， 作者不 是初出 茅庐的 见习记 
者， 报 导应该 是可信 的吧？ 

EricPortelance 37 留 意到这 截断图 （直轴 不是从 0 开始） 问题 多多， 于是深 入研究 
相关 数据， 发 现原作 者只集 中讨论 1972 年和 2012 年的 数据， 似乎 故意忽 视了在 

这期间 的多年 数据。 



重新制 作的没 有截断 的连续 图给出 不同年 
份的 数据， 得 出不同 印象。 总体 而言， 中 
位 数收入 依然呈 现下降 趋势， 但斜 率不是 
第 一图的 剧烈。 45-54 岁组群 是相当 稳定， 
直至 2000 年才有 下降。 





若是图 形没有 截断， 回归 正规从 0 幵始， 
中位 数下降 的斜率 可说是 缓慢。 



若原 图没有 截断， 中 位数下 降的斜 率不是 
文章 强调的 「危 险」。 



https://medium.eom/p/c63780efa928 

$0 



Portelance 进 一步找 出人口 调查局 的全部 数据， 发现彭 博编辑 「忽 略了」 1947 至 
1972 年的 趋势。 



1947 至 2011 年 的全部 数据得 出不同 
的 结论： 收 入持续 上升， 直至 1971 

年 见顶， 之 后有些 年龄组 群保持 平稳， 
有 些逐年 下降。 研 究主题 应该是 「为 
何 如此？ 」 而不是 「美 国男士 四十年 
来 收入下 降」。 




如 追随彭 博作者 只选用 两年的 数据作 
为起点 和终点 ， 不 同 的选择 （ 只 选 1947 
和 2012 年） 得 出完全 不同的 结论！ 




这是统 计谎言 的典型 例子。 



第七章 半吊子 的数字 



一 名印度 法官忠 告热心 的年轻 英国公 务员： 「当你 年纪大 一点， 就 不会热 衷于统 

计 数据。 印度非 常热衷 于积累 统计： 收集， 添加， 提高至 n 次幂， 取立 方根， 并 
准备 精彩的 图形； 但 绝不能 忘记的 是这些 数字每 一个都 是来自 村长， 他们 喜欢说 
什 么数字 就说什 么！」 

如果 不能证 明你想 证明的 什么， 证 明别的 东西， 假装 是同一 东西。 人们面 对统计 
统计数 据的冲 击时会 发呆， 几 乎不会 注意到 其中的 差别。 半 吊子的 数字是 非常有 
用的 手段。 

药 厂不能 证明新 药能治 感冒， 但 可以大 字发布 实验室 报告： 半公克 新药在 试管内 
11 秒杀死 31,108 枚 病菌。 要 确保实 验室是 有信誉 或有令 人印象 深刻的 名字。 拍 
摄穿白 袍的医 生拿着 报告。 

但 不要提 出几个 噱头： 在 试管中 有良好 效用的 药剂可 能不会 在人的 喉咙有 作用， 
不要说 明杀死 什么病 菌以免 混淆。 谁 知道是 什么病 菌引起 感冒， 特 别病源 可能不 
是 病菌？ 事 实上， 没有人 知道试 管中各 种细菌 和感冒 有什么 关连， 但人们 不会深 
入 理解， 尤其 是感冒 病人。 

也许， 这例 子太明 显了， 人们 多了对 感冒的 认识， 虽 然广告 页面从 来少不 了这些 
声东 击西的 例子。 

在种族 歧视的 年代， 奉命 调查以 「证 明」 不是这 回事， 这 是艰巨 任务。 你 可以计 
划一 次民意 调查， 或 更好的 是委托 有声誉 的机构 调查； 向有代 表性的 母体群 发问： 
黑人的 就业机 会是否 和白人 一样？ 每 隔一段 时间进 行一次 调查， 最 后得出 趋势的 
结论。 

普林 斯顿大 学民意 调查中 心曾经 调查这 题目， 发现得 出的民 意表里 不一。 每位受 
访者 除了回 答主题 问题， 还 要回答 其他问 题以测 试他是 否歧视 黑人。 调查 发现种 
族 歧视观 念最严 重的受 访者， 对就 业问题 的答案 往往是 正面。 同情 黑人受 访者有 
三分 之二认 为黑人 就业机 会逊于 白人； 有种族 歧视观 念的人 有三分 之二认 为黑人 
就 业机会 不逊于 白人。 明显这 项调查 对黑人 公平就 业机会 说不清 是什么 情况， 反 
而 揭露了 人们看 待种族 的另 一面。 

因此， 在种族 歧视的 年代， 调查黑 人的公 平就业 机会， 会得出 「黑 人就业 没有问 



题」 的 结论。 情况 越差， 这些 半吊子 数据让 调查看 来更好 一些。 

「执业 医生有 27% 选择 金叶牌 香烟， 多 于任何 其他牌 子。」 暂由不 论这说 法是否 
虚假， 只要问 这说法 有什么 问题。 大多 数人的 反应可 能是： 「那又 怎样？ 」 医学 
界受到 尊重， 但医生 知道香 烟品牌 的讯息 是否多 于普通 烟民？ 他们 是否有 特别知 
识选 择危害 最小的 香烟？ 当然他 们不是 这样。 然而， 「执业 医生有 27% 选 择金叶 
牌 香烟」 似乎 意味着 更多的 什么。 

「实 验室试 验证明 大力牌 电动榨 汁机功 能提高 26%。」。 这听 起来真 不错； 直至真 
相揭露 是大力 牌电动 搾汁机 的功能 是与老 式手动 榨汁机 比较。 大力 牌电动 榨汁机 
可能是 市场上 功能最 差的， 那个 26% 数字是 完全不 相干。 

不 是只有 广告客 户玩弄 数字， 更多的 是从数 字中导 出没有 关连的 结论。 一 篇交通 
安全 的文章 报导： 「晚 间七时 的交通 意外是 早上七 时的四 倍」， 因此 在早上 开车更 
安全。 数 据没有 问题， 但 结论不 可靠。 晚上 的交通 比早上 繁忙， 所 以较多 意外， 
与文 章的结 论没有 关系。 

如果没 有留意 这些数 字是半 吊子的 数据， 你可 以被任 何交通 工具事 故的统 计数据 
吓得 半死。 

相比 1910 年， 更 多人死 于飞机 意外。 现代 的飞机 是否更 危险？ 废话。 现 在的飞 
机乘 客是以 前的数 百倍， 仅此 而已。 

「据 报导， 去年的 铁路意 外死亡 人数为 4,712 人。」 这很 吓人。 真 相是有 一半死 
亡人 数是因 为汽车 司机闯 红灯， 在道口 与火车 相撞， 其余大 部份是 跳车的 霸王乘 
客， 只有 132 人 是火车 乘客。 甚至这 数字也 没有很 大比较 意义， 除 非这连 接到总 

乘客 里程。 

知道 火车， 飞机或 汽车去 年的意 外伤亡 数字， 也要同 时知道 每百万 乘客一 公里数 
字， 才 可以知 道风险 比率。 

声 东击西 有很多 法宝， 一般 手法是 并列两 种看来 相关或 相似， 但其 实没有 关连的 
项目。 某企业 与工会 的关系 恶劣， 人 事部经 理受命 「调 查」 员工对 工会的 投诉， 
必 然可以 找到一 些相关 投诉， 理直气 壮声称 「员 工有 78% 反对工 会」； 实 情只是 
搜集一 些不经 分类的 投诉和 埋怨， 汇集为 另一套 数据。 这没 有证明 什么， 但似乎 
是 完成了 调查。 

当然， 这是双 面刃； 工 会也可 以随时 「调 查」， 「证 明」 员工 对企业 的诸多 不满。 



企业的 财务报 告多的 是这些 半吊子 数字。 留意 出乎意 料的庞 大利润 和隐藏 在某他 
名目的 利润。 汽 车工人 工会有 这样的 报导： 

「公 司公 报去年 利润三 千五百 万元， 占销 售额的 1.5%」， 少得 可怜。 换一 个三毛 
钱的 灯泡已 耗上二 十元销 售额。 员工甚 至想到 要节省 用纸。 公报的 利润当 然不是 
全部 利润， 其余的 隐藏在 折旧， 特别 折旧和 储备。 

同样要 留意百 分比。 通用 汽车公 报本年 九个月 的税后 销售利 润增加 125%， 投资 
部门盈 利增加 448%。 这究 竟是好 是坏？ 视 乎你的 观点。 

同样， 读者 来函为 A&P 商店 辩护： 「商 店每 千美元 销售额 只赚了 十元， 不 应被谴 
责为奸 商。」 咋听 之下， 这样的 利润确 实微不 足道； 住房抵 押贷款 和银行 贷款的 
息率在 6% 之上。 A&P 公司结 束超市 业务， 把 资金存 入银行 赚取利 息岂不 是更有 
生意 头脑？ 

心 法在于 投资年 回报率 不是等 于销售 总额的 利润。 正如另 一位读 者投函 解释： 「如 
每天 早上以 $0.99 买货， 当天以 $1 价格 售出， 利 润只有 1%， 但全年 365 天的投 
资 盈利是 365%。」 

任何 数字都 有许多 表达的 方式。 例如， 可称之 为销售 回报率 1%， 投 资回报 15%， 
一千万 美元的 利润， 利 润比去 年增加 40%， 或比去 年下降 60%， 方 法是选 择一个 
最适 合当前 目 的的 数字， 希望 没有几 个人会 理解这 是如何 不完善 反映了 情况。 

不是所 有半吊 子数字 是故意 欺骗的 产品。 许 多统计 数据， 包 括对大 家非常 重要的 
医疗 数据， 是因为 源头失 真而被 扭曲。 一 些微妙 事项如 堕胎， 婚外 生育和 梅毒都 
有惊人 的矛盾 数据。 美国最 近公布 的流感 和肺炎 数字， 奇怪 的结论 是这些 疾病几 
乎都 局限在 南部三 个州， 占报告 病例约 80%。 实情是 这三个 州依然 把流感 和肺炎 
列 为必须 申报的 病例， 其 他州已 经停止 申报。 

一些 关于疟 疾的数 字没有 意义。 1940 年前， 美国南 部每年 有数十 万例， 现在只 
有极 少数， 似 乎短短 几年内 有极大 改进。 实情 是现在 只呈报 确诊为 疟疾的 病例， 
而 之前是 包括了 南方人 惯称的 感冒或 发冷。 

1898 年 的美西 战争， 海军死 亡率是 9%。， 同一 时期的 纽约市 平民死 亡率是 16%。。 
海军 征兵人 员后来 用这些 数字来 宣传在 美国当 海军更 安全。 假设这 些数字 是准确 
的， 看 看这两 个数字 为何几 乎毫无 意义。 两 个组群 没有可 比性。 美 海军主 要身体 
健 康的年 轻人； 纽约 市平民 包括婴 幼儿， 老人和 病人， 他们全 都有较 高的死 亡率。 



两个 数字不 能证明 符合海 军标准 的士兵 活得更 长寿， 但 也不能 反证。 

在 发明脊 髓灰质 炎疫苗 之前， 沮丧的 消息是 小儿麻 痹症是 史上最 严重， 当 年比以 
往任 何时候 都更多 病例。 

专家检 视这些 数字， 发现几 件令人 鼓舞的 事情。 其中 之一是 当年的 小儿数 目是破 
纪录的 数字， 如 发病率 不变， 病例 数字也 会水涨 船高。 另一 发展是 父母更 多认识 
脊髓灰 质炎， 即使 轻症病 例更愿 意求医 就诊。 最 后是有 了财政 诱因： 有更 多的小 
儿麻 痹症保 险和慈 善组织 的更多 援助。 所有这 一切令 人怀疑 小儿麻 痹症达 到新高 
的 说法， 后来的 死亡总 人数证 实了怀 疑是合 理的。 

值得留 意的事 实是死 亡率或 死亡人 数往往 比发病 率或发 病人数 是更好 的衡量 - 
仅仅是 因为报 告和记 录死亡 率或死 亡人数 是较为 尽心和 准确。 

美国每 四年就 有一次 半吊子 数字的 热潮。 数 字没有 周期， 而 是四年 一度的 选举来 

了。 共 和党在 1948 年 10 月发表 的竞选 声明完 全是建 立在似 乎是互 相关连 但原来 
互不 相关的 数字： 

1942 年， 当 Dewey 当选州 长时， 一 些地区 老师的 的最低 工资低 至每年 $900。 
今天， 纽约州 学校的 老师享 有世上 最高的 薪水。 Dewey 州长接 纳他委 任的委 
员 会调查 结果， 在 1947 年 提取部 份盈余 实时增 加教师 薪金。 因此， 纽约市 
教师 的最低 薪金是 $2,500-5,325。 

完 全可能 Dewey 先生 是教师 之友， 但 数字不 是这样 说话。 这 是比较 「之 前」 和 
「之 后」 的老 把戏， 从 $900 急增至 $2,500-5,325 听起来 是极大 改进， 但没 有说明 
$900 是 农村地 区教师 的最低 工资， 而 $2,500-5,325 只是纽 约市的 范围。 Dewey 州 

长可能 改善了 教师的 待遇， 也可能 没有。 

之 前和之 后的比 较照片 是杂志 和广告 的熟悉 特技。 拍摄 两次， 告诉 你新油 漆涂层 
可以做 到什么 区别。 在两 次摄影 之间， 客 厅已经 添加新 家具， 有时 「之 前」 的照 
片只是 很小， 光线不 好的黑 白照， 「之 后」 版 本是全 彩色大 照片。 比对照 片显示 
模 特儿用 护发素 的前后 对比： 天哪， 她确 实好看 得多， 但仔 细检查 会发现 大部分 
的变 化是因 为她的 微笑， 光亮 头发。 是摄 影师的 功劳， 不是护 发素。 



补 充材料 




荐多款 牙膏， 不是只 选一项 
上下。 



2007 年， 英国 的广告 声称： 「多于 80% 牙医 推荐高 

露洁牙 膏」。 一般人 从广告 得出的 印象是 80% 牙医推 
荐 高露洁 牙膏， 余下的 20% 推 荐其他 牌子。 

英国广 告标准 局介入 调查， 发 现数据 来自高 露洁赞 
助的市 场调查 （但没 有公布 ）， 而且受 访牙医 可以推 
调 查数据 显示至 少有另 一牌子 和高露 洁的得 分不分 



英国 广告标 准局下 令禁制 广告。 
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2009-10 年， 体育用 品公司 Reebok 声称 EasyTone 和 

RunTone 跑 步鞋经 实验室 测试， 「证明 只需穿 上跑步 
鞋 走路， 比一般 跑步鞋 有助强 化腿筋 和小腿 11%， 
臀 部肌肉 更高达 28%!」 

美国联 邦贸易 委员会 调查发 现这完 全没有 科学根 



据， 被判罚 款二千 五百万 美元。 



〔台 湾〕 行 政院公 平交易 委员会 委员会 27 日 决议， 台湾 庄臣公 
司在赠 品包装 上登载 「近 90% 消费 者选择 植物欧 护」， 商 品质量 
及内 容为虚 伪不实 及引人 错误， 违 反公平 交易法 规定， 处 新台币 
100 万元 罚款。 

中央社 报导， 公平会 表示， 台湾庄 臣依据 博舆市 场研究 顾问于 
2006 年 7 月间进 行的市 场问卷 调查， 在其赠 品包装 广告上 宣称， 近九成 消费者 
「选 择」 植物 欧护。 




公平会 指出， 但经 调查， 该问卷 其实是 将庄臣 的欧护 植物防 蚊液与 另一品 牌防蚊 
液， 进 行清爽 不油腻 偏好的 比较， 而非 购买的 比较， 广告却 未批注 「九 成」 的比 
较 基础， 恐致 消费者 误导。 



'数 据源： http://www.telegraph.co.uk/news/uknews/15397iyColgate-gets-the-brush-off-for-misleading-ads.html 
' 数据源 ： http://www.investopedia.com/financial-edge/361^/4-examples-of-misleading-health-ads.aspx 



公平会 表示， 此外， 该问卷 调查以 随机抽 样方式 进行， 就 100 位受 试者现 场使用 

两种 产品后 调查， 姑且不 论样本 数是否 足以支 持该广 告宣称 内容， 广 告宣称 「近 
九成 消费者 选择欧 护」， 显然与 问卷调 查结果 有别， 因此认 定广告 不实。 4(3 



嘻 



Centrum 在 1997 年的广 告声称 「十个 美国人 有九个 未能从 食物摄 

取所 需的营 养素， 缺少了 重要的 维生素 和矿物 质。」 该声 明引用 
1976 至 1980 年 间进行 的一项 调查， 发现 在调查 当天， 受访 者只有 
9% 记得 要进食 水果和 蔬菜的 每日推 荐量， 因此 得出结 论高达 91% 
的美国 人缺少 维生素 （可 能包 括你！ ）。 



Centrum 
f ： 5 

mtmmcmm 

这说 法问题 多多： （一） 这不 能证明 那些人 缺少维 生素； 事 实上， 他们可 能在前 
一 天己进 食足够 数量的 水果和 蔬菜； （二） 只 是一天 的饮食 不足以 计量整 体饮食 
习惯。 食 物摄入 量应以 几星期 计算； （三） 即 使摄入 数量低 于推荐 量也可 以有充 
足 营养。 41 



Vioxx 是 一种非 留体抗 炎药， 类似 阿司匹 林或布 洛芬。 
Merck 药 厂的直 销广告 耗资亿 万美元 （2000 年 花费了 1.6 
亿美元 ）。 该 药物于 1999 年被 FDA 批准， 直至 2004 年才 

停用。 这是 源于一 宗法律 诉讼声 称该药 物引起 23,800 宗 
心血 管病例 （包 括心脏 病发作 ）， 跟进 研究发 现服用 Vioxx 

的 患者其 心血管 病例统 计上显 著高于 安慰剂 患者。 

这种 不安全 药物如 何得到 FDA 批 准推出 市场。 事 因原有 研究发 表时， 药 厂排除 
了三 宗心肌 梗塞的 病例， 从而 改变了 统计显 著性。 可 以想象 药厂雇 用的科 学在重 
重 压力下 「忘 记」 这三个 病例， 或 是他们 不理解 统计显 著性的 意义。 42 





1995 年， 英国 药物安 全委员 会向十 九万名 医护人 员发出 
警告： 第三 代口服 避孕丸 增加了 在腿部 或肺部 形成血 



http://dasanlin888.pixnet.net/blog/post/34467926 
数据源 ： http://www.statisticshowto.com/misleading-statistics-examples/ 
http://www.statisticshowto.com/how-significant-is-significant-the-vioxx-scandal/ 



块， 有潜 在的双 倍致命 风险。 这警告 导致在 1996 年有一 万三千 宗堕胎 手术。 所 
谓 「潜 在的双 倍致命 风险」 原来 是基于 以下的 数据： 每十万 名服用 第二代 口服避 
孕丸的 妇女有 十五人 患上可 致命的 血块； 服用 第三代 口服避 孕丸的 则增至 二十五 
人。 作为 参照， 没有 服用避 孕丸的 妇女每 十万人 有五宗 病例。 是的， 风险 是增加 
了， 但比怀 孕的风 险要小 得多， 不 值得那 么令人 震惊。 43 



统计师 被医生 告知她 的乳房 X 线检查 呈阳性 反应， 
她询问 医生她 患癌的 机率是 多少？ 。 医生给 出令人 
震惊的 答案： 80% 。 她遍查 文献， 找 到正确 答案是 

10%, 更令她 震惊的 是许多 医生给 出不同 答案： 20% 
医 生回答 10%、 20% 医 生回答 1%、 60% 医 生回答 81 
或 90%。 

不 是医生 看不懂 数字， 而是有 太多研 究报告 被断章 取义， 渲染 夸大。 44 




http://news.bbc.co. uk/^/hi/health^l3848.stm 

http://www.statisticshowto.com/even-physicians-dont-understand-statistics/ 



第八章 「后 此谬误 45」 又来了 




统 计术语 描述鹳 和新生 儿两者 之间有 「正 相关关 系」， 有 A 
就有 B。 



要估算 荷兰或 丹麦的 家庭生 了多少 孩子， 你可以 乱猜， 或 
是 计数他 们房子 屋顶的 鹳巢。 46 



^^^^^H 这个古 老神话 实际说 明更有 价值的 意义： 容 易记住 和提醒 

我 们两个 因素之 间的关 联不足 以证明 在前的 A 引起了 其后的 B。 

在鹳和 婴儿的 例子， 很容 易找到 与两者 相关的 第三个 因素： 大家庭 住在大 房子， 
大房 子有更 多烟囱 让鹳鸟 筑巢。 

但 在其他 情况， 不 总是那 么容易 发现因 果关系 的假设 缺陷， 尤其是 流行偏 见认为 
这是 有特别 意义。 

有 人研究 和证实 烟民的 大学成 绩是低 于非吸 烟者。 很 多人很 高兴， 这说法 流传到 
现在。 这样 看来， 要 有好成 绩是在 于放弃 吸烟； 再进一 步的结 论是吸 烟让人 变蠢。 

我 相信这 项研究 是正确 完成： 有诚 实和精 心挑选 的足够 样本， 相 关性高 等等。 

其 中的谬 误颇为 古老， 经 常出现 在统计 材料， 躲 在可观 的数字 之下。 谬误 就是： 
因 为先有 A， 后有 B， 所以 A 导致 B。 既 然吸烟 和学业 不走在 一起， 因此 吸烟导 
致学业 不佳。 但也可 以倒转 来说： 学 生成绩 不佳驱 使他吸 烟草， 但不 酗酒； 这结 
论 也可以 证明是 对的， 也得到 证据的 支持。 但这 不能满 足宣传 手法。 

更 好的结 论是两 者没有 关连， 两者都 是第三 因素的 产物。 是 否喜欢 交际的 学生较 
少 时间看 书而多 抽烟？ 或者 之前某 人证实 外向性 格与成 绩低落 之间有 相关， 这关 
系 比成绩 与智力 之间关 系更为 明显？ 也 许外向 性格比 内向的 人更多 抽烟。 问题的 
关键 是有很 多合理 解释， 很难 只是坚 持己见 只挑选 一个。 但很 多人是 这样。 

为了避 免掉落 「后此 谬误」 的 谬论作 出错误 判断， 你需 要仔细 检查任 何关乎 「彼 
此 相关」 的 陈述。 这 种谬误 有几种 类型。 



Post Hoc —个 事件发 生在另 一事件 之前， 并不 一定是 后者的 原因， 也译为 「事 后谬 误」。 

图 片取自 htt|3:〃www.todavifoundout.com/wi3-content/ui3loads々013^)Vstork-340x400.ii3g 。 欧洲民 间传说 鹳是送 子鸟。 



一种是 偶然产 生的相 关性。 你可搜 集一组 数字来 证明一 些不太 可能的 事情； 但如 
再试 一次， 可 能无法 证明。 一如 「牙 膏防止 蛀牙」 的 广告， 你只需 扔掉不 想要的 
结果， 广 泛发布 那些合 心意的 结果。 如 只是小 样本， 很有可 能发现 你想得 到一对 
一事 件之间 的一些 实质性 关联。 

常见的 一种共 变是其 中的关 系是真 实的， 但不 可能确 定那个 变量是 「 因」， 那个 
是 「 果」。 在 某些情 况下， 因果 关系可 能会时 不时改 变从属 地位， 或两者 可能同 
时是 「因」 也 同时是 「 果」。 人 们的收 入和持 有股票 之间的 相关性 可能是 这样。 
有 更多钱 就多买 股票； 有更多 股票， 收入 越多； 说 不准是 那一个 导致另 一个。 

也许 最棘手 的是变 量互不 影响， 但有真 正的相 关性。 这方面 有颇多 研究， 例如烟 

民的学 业成绩 差劲； 有太 多医学 统计虽 然证实 相关关 系是真 实的， 但这 「因 A 
而8」 的 关系只 是猜测 而矣。 作为 废话或 伪相关 的统计 例子， 有人 兴高采 烈地指 
出： 马萨 诸塞州 长老会 牧师的 薪金和 古巴甜 酒价格 有密切 关系。 

何者为 「因」 ？ 何者为 「果」 ？ 换句 话说， 长老是 否受益 于或支 持甜酒 贸易？ 这 
太牵 强了， 明显 是荒谬 之言。 紧 记世事 多的是 「后 此谬 误」， 只是更 为微妙 隐蔽。 
长老 和甜酒 的例子 很容易 看到这 两个数 字齐齐 增长， 是因 为第三 因素的 影响： 世 
上万 物的价 格都在 增长。 

〔欧 洲〕 人 们提到 六月的 自杀率 最高， 也提到 最多人 在六月 结婚。 是否自 杀驱使 
较多人 结婚？ 或 是较多 求婚不 遂的人 自杀？ 稍 微更有 说服力 （但同 样未经 证实） 
的解释 是在整 个冬天 舔着抑 郁伤口 的人本 以为到 了春天 会雨过 天晴， 可是 六月来 

了， 他仍 然感到 绝望， …。 

要 注意的 另一个 结论： 推 断得出 的相关 性已超 越引以 为证的 数据。 很容易 表明多 
雨水， 玉米 和农作 物生长 得更高 更好。 似乎 雨水是 好事。 但 连绵数 月的强 降水会 
损 坏甚至 破坏农 作物。 正相 关关系 只能维 持到某 一点， 然后 好事变 坏事。 超过一 

定的 雨量， 下雨 越多， 玉 米收成 越少。 

当然， 「相 关性」 的倾 向经常 不是被 描述为 一对一 的理想 关系。 高 个子男 生的体 
重超 过矮子 男生， 这是 正相关 关系。 但 是可以 很容易 找到一 个六英 尺的高 个子体 
重及 不上五 英尺的 矮子， 所以 相关性 是小于 1。 负 相关简 单说明 「此消 彼长」 ： 
变量 A 增加， 变量 B 会下 降。 在物理 学这是 「反 比」： 灯 泡的光 线越远 越弱。 这 
些物理 关系往 往有完 美的相 关性， 但 是企业 或社会 学或医 学数字 很少是 如此整 
齐。 即 使学历 一般与 收入成 正比， 但往往 有许多 反证。 请 记住， 相 关性可 能是真 
实和 基于真 实因果 关系， 但如在 单一事 件中确 定任何 行动， 可 能是几 乎一文 不值。 



有无数 研究证 实大专 以上学 历与未 来收入 挂钩， 大学 派发无 数小册 子吸引 学生。 
我不 否定这 意图， 我赞成 教育， 特 别是课 程包括 《统 计学入 门》。 这些数 字已经 
明 确证明 拥有大 学学位 的人赚 更多。 当然， 有很 多例外 情况， 但趋 势是强 劲和明 
确的。 

唯一 的错误 是有人 利用这 些数字 和事实 得出完 全没有 根据的 结论。 这是后 此谬误 
的最佳 例子。 有人 认为这 些数字 表明： 如 果你上 大学， 在 这三、 四 年间你 可能赚 
到的 收入是 高于以 其他方 式消磨 这三、 四年。 这种没 有根据 的结论 其依据 是基于 
同 样毫无 根据的 假设： 因为曾 受大学 教育的 人赚更 多钱， 是 因为他 们上过 大学。 
其 实我们 不肯定 知道： 这些 人即使 没有上 大学， 可能 都会赚 更多。 一些事 实强烈 
表 明正是 如此。 大 学学生 有两个 群组多 得不成 比例： 富 家子弟 和聪明 学子。 聪明 
的 人即使 没有上 大学， 可 能已经 有很好 的赚钱 能力。 谈到富 家子弟 …钱生 钱有多 
种 方式。 无论 是否上 大学， 富家 子弟很 少落在 低入息 阶层。 

销量庞 大的星 期日报 刊有以 下这段 对话， 也许你 会觉得 有趣， 因为 同一作 家有另 
一 篇文章 〈流行 观念： 对或 错〉。 

问： 上 大学对 你终生 不结婚 的机会 有什么 影响？ 

答： 如果是 女生， 一生 老处女 的机会 挺高。 男 生刚好 相反， 很 少终生 不娶。 

美国康 奈尔大 学调查 1,500 名典型 的中年 大学毕 业生， 发现 男生有 93% 已成婚 (相 
对于 一般人 口只有 83%)。 但 中年女 性毕业 生只有 65% 结 了婚。 大 学毕业 生中的 
老处女 是一般 人口终 生不嫁 妇女的 三倍。 

十七 岁的小 美看到 报导， 知 道如果 她去上 大学， 婚姻大 事的前 景很不 乐观。 而且 
统计资 料的来 源颇有 声誉。 是的， 报 导有引 用康奈 尔大学 的统计 数据， 但 结论不 
是 仓促读 者所认 为是来 自 校方 的 。 

这又是 案例： 利用真 正的相 关性强 加诸未 经证实 的因果 关系。 也许 这一切 是倒过 
来说。 即 使这些 女生没 有上过 大学， 仍然 会终生 不嫁， 比例 甚至可 能高于 大学女 
生。 如果这 说法的 可能性 并不优 于作家 坚持的 结论， 这 也许也 是猜测 而矣。 

事 实上， 有证 据表明 有终生 不嫁倾 向的女 士更有 可能上 大学。 金赛 性学博 士似乎 
找到了 性欲和 教育有 一定相 关性， 而性 状可能 在大学 预科年 龄期已 形成。 这更令 
人质 疑上大 学会影 响人们 结婚的 说法。 

所以， 小美 注意： 这 是未必 如此。 



医学文 章曾经 提出严 重警告 ，指出 喝牛奶 的人患 癌的机 会增高 。在美 国新英 格兰， 
明尼苏 达州， 威斯 康星州 和瑞士 这些大 量生产 和饮用 牛奶的 地方， 癌症似 乎变得 
普遍， 而在 牛奶稀 缺的亚 洲国家 斯理兰 卡罕见 癌症。 文章也 指出美 国南方 各州少 
喝 牛奶， 癌症 病例也 较少。 此外， 有人 指出经 常喝牛 奶的英 国妇女 患上某 些类型 
癌 症是少 喝牛奶 的 日 本妇 女的十 八倍。 

只 要稍为 深入研 究这些 数字就 可以得 出不同 解释。 癌症主 要是中 年或以 后的疾 
病。 瑞 士和前 文提到 的国家 同样的 是国民 长寿。 在 那项英 日妇女 研究， 英 国妇女 
比 日本妇 女平均 年长十 二年。 

Helen M.Walker 教 授提出 证明， 解释 有趣但 愚蠢的 说法； 证 明假设 每当两 件事情 

一起变 化必然 有因果 关系的 谬误。 调查 妇女的 年龄和 某些物 理特征 之间的 关系， 
可以计 算步行 时脚的 角度， 会发现 老年妇 女的角 度往往 较大。 可能 实时反 应这反 
映 因为脚 的角度 加大， 所以 她们长 老了。 人 人都看 出这是 荒谬的 解释。 似 乎是年 
龄增长 导致脚 的角度 增大； 大多数 妇女长 老了， 脚 的角度 加大。 

任 何这样 的结论 很可能 是虚假 和必然 是不合 情理。 要 适当得 出正确 结论， 研究应 
在一段 时间内 观察同 一妇女 或类似 组群。 这会消 除一个 可能的 因素： 老年 妇女成 
长时， 被教 导走路 时脚要 朝外， 而现 在的年 轻少女 被教导 这样的 姿势不 正确。 

如有人 （通常 是有利 害相关 的人） 对某项 相关关 系大做 文章， 首先 看看这 是否这 
类型的 关系： 产生 于事件 流程， 时间 趋势。 我 们这时 代很容 易发掘 到任何 两项事 
物的 正相关 关系： 大 学学生 人数， 精 神病人 数目， 香烟消 耗量， 心脏病 数字， 使 
用 X 光机 次数， 加州学 校教师 的薪俸 等等。 认为其 中一些 事物是 另一些 事物的 
「因」 显然 是愚蠢 无理。 但太阳 之下无 新事， 每天 都有人 提出。 

以统计 学方法 和迷惑 的数字 和小数 点来阐 释因果 关系， 只是比 迷信好 一点， 但往 
往比 误导更 严重。 新 赫布里 特群岛 的岛民 一直相 信体虱 是健康 良好的 表征。 他们 
观 察了几 百年， 目睹 身体健 康的人 通常有 体虱， 而 生病的 人往往 没有。 观 察本身 
是准 确和有 见识； 历久 以来， 这 些非正 式的观 察往往 都是。 从证据 中得到 这些原 
始 结论： 体 虱让人 健康， 人人都 应该有 体虱。 对此， 我 们很难 有什么 说法。 

正 如上文 指出， 在统 计磨房 处理比 这还要 稀少的 数据， 直至 常识的 目光再 也无法 
穿透， 已经 为医疗 界和许 多杂志 和专业 医学期 刊赚钱 不少。 精明观 察者终 于弄清 
楚新赫 布里特 群岛的 现象。 事实 证明， 几 乎每个 岛民大 部分时 间都有 体虱； 可说 
是正常 状态。 然而， 当病 人发热 （很可 能是由 那些体 虱传染 ）， 病 人体温 变得太 
热， 体 虱离幵 这不再 舒适的 居所。 这案 例的因 果完全 混淆、 扭曲、 扭转和 混在一 



起。 

补 充材料 

错 误的因 果关系 

当 统计测 试展示 A 和 B 之间的 关系， 通常 有五种 可能性 ： 

1. A (因） 导致 B (果 ）。 

2. B (因） 导致 A (果 ）。 

3. A 和 B (因） 互相 导致对 方出现 （果 ）。 

4. A 和 B (因） 一 起导致 C (果 ）。 

5. 观 察得的 关系纯 属偶然 （没有 因果关 系）。 

第五 个可能 性可透 过统计 测试来 量化， 计算出 来的机 率与前 四个可 能关系 发生的 
机率一 样大， 但事实 上应变 量之间 是没有 关系。 

如调查 发现沙 滩泳客 购买雪 糕的人 数与遇 溺人数 有相同 趋向， 没有 人会断 言雪糕 
导致 遇溺， 因 为这是 明显地 无关。 遇溺和 购买雪 糕的人 数明显 与第三 个因素 （沙 
滩上的 人数） 相关。 

但这谬 误的例 子不是 笑话： 例子是 「接触 化学品 X 会导致 癌症」 的诸多 报导。 把 
「接触 化学品 X 的 人数」 代替 「购 买雪 糕的人 数」； 把 「患上 癌症的 人数」 代替 
「遇 溺的人 数」。 在这情 况下， 即使 两者没 有真正 的因果 关系， 但 统计上 依然有 
关联。 例如， 如某 地方有 「危 险」 （即 使并不 危险） 的化 工厂， 中 产家庭 因恐惧 
而 迁离， 诱使 更多低 收入家 庭搬到 该地。 然后 发现低 收入家 庭患上 癌症的 数字上 
升， 于是 推论化 工厂是 元凶； 其 实这可 能是基 于较差 的膳食 和生活 环境或 是较低 
档次 的医疗 服务。 



第九章 统 计误世 



通过 使用统 计材料 以误导 他人， 可称 为统计 操控， 或是 「统 计误世 47 」。 

本书的 书名和 一些内 文似乎 暗示所 有这些 操作都 是意图 欺骗的 产物。 美国 统计协 
会 的分会 会长曾 为此斥 骂我。 他说： 大多 数不是 欺骗， 而是 无能。 他的说 话有意 
思， 但我 不能肯 定统计 学家认 为那一 项批评 更为不 恭敬。 可能 更重要 的是要 记住： 
扭曲 统计数 据及其 操作并 不总是 专业统 计人员 所为。 统计学 家的成 果被推 销员， 
公关 专家， 记者， 或广 告文案 扭曲， 夸张， 过度 简化， 或通 过选择 扭捏。 

但无 论在任 何情况 下谁是 有罪的 一方， 很 难说这 是无心 之失。 杂志 和报纸 经常夸 
大炒作 虚假的 图表， 很 少减斤 扣两。 在我的 经验， 业 界提出 的统计 参数很 少报大 
报喜， 往 往是表 达差于 数据。 另一 方面， 少见 工会聘 请无能 的统计 人员做 出数据 
差于 表达的 统计。 

只要 这些错 误是一 面倒， 很难 归结于 笨拙或 意外。 

歪 曲统计 数据巧 妙手法 是利用 地图。 地图隐 含许多 变量， 其 中事实 可以被 掩饰， 
关系被 扭曲。 我最 喜欢的 「变 光阴影 48 」 奖杯 颁发给 不久前 波士顿 第一国 民银行 
发表 和转载 极广， 包 括所谓 纳税人 群体， 报纸和 《新 闻周 刊》。 



变 光阴影 （西 部各州 风格） 变 光阴影 （东 部各州 风格） 




为 了表示 我没有 作弊， 地 图加了 MD,DEL 和 Rl。 



该图 显示目 前联邦 政府拿 走和花 费的美 国收入 部份， 利用有 色部份 表示密 西西比 
河以 西各州 （除 了路 易斯安 那州， 阿肯 色州和 密苏里 州部分 ）， 其 联邦政 府支出 



statisticulation 

The Darkening Shadow 



已等于 各州国 民的总 收入。 



欺 骗谎言 在于选 择地广 人稀的 各州， 其收 入相对 较少。 以同样 的诚信 （和 同样的 
不诚信 ）， 绘 图者可 能已开 始在纽 约或新 英格兰 着色， 得出 极为更 小但更 令人印 
象 深刻的 阴影。 使 用相同 数据， 他可 以给出 产生完 全不同 印象的 地图， 但 没有人 
有兴趣 发表。 至少， 我 不知道 有任何 强大群 体有感 兴趣发 表偏少 的公共 开支。 

如果 绘图者 目标只 是传达 讯息， 很容易 做到。 他可以 选择一 组中间 状态的 州份， 
其总 面积与 总收入 占 国 民收入 比例相 同 。 

这张地 图公然 误导， 不是宣 传的新 把戏， 而 是经典 手法。 同 一家银 行不久 前公布 

显 示联邦 政府在 1929 年和 1937 年开支 的地图 版本， 很快被 辑录为 「可怕 插图」 

歪曲 事实的 例子。 这 间银行 依然故 我发表 绘图， 而更有 见识的 《新闻 周刊》 和其 
他人一 直照搬 可也， 没 有警告 也没有 道歉。 

如 果你认 为现在 有通货 膨胀， 看看 这个。 有一段 时间， 美国 人口普 查局想 出了在 
年 报陈述 「平 均家庭 收入为 $3,100」。 但同 时报章 又报导 Russell Sage 基金 会给出 
的同样 数据是 可观的 $5,004。 也许你 高兴知 道大家 生活得 不错， 但 也可能 感受到 

这数字 与你观 察所得 不符。 也许你 认识的 人不是 基金会 认识的 群组。 

人 口普查 局和基 金会的 数字怎 会如此 不同？ 普查 局是说 「中位 数」， 也是 应该如 
此； 但即 使基金 会是说 「平均 数」， 差别 也不应 该如此 巨大。 基金 会解释 数据来 
自 把美国 人民个 人总收 入除以 149,000,000， 得 出人均 $1,251; 四口 之家即 共有收 
入 $5,004。 

这样 奇怪的 统计操 控有两 方面的 夸大： （一） 使用 「平 均数」 而不 是较小 和更多 
讯息的 「中 位数」 （上文 有讨论 ）； （二） 假设家 庭收入 是家人 数目成 正比。 我有 
四个 孩子， 也希望 事情是 这样， 但事实 不是。 四人家 庭的收 入绝对 不是两 人家庭 
的 两倍。 

公平 地说， 基金 会的统 计学家 可能不 是存心 欺骗， 应 该说他 是想表 达人们 捐献而 
不是 受惠的 意思。 有趣的 家庭收 入数字 只是副 产品， 但这欺 骗行为 已广泛 传播； 
这是不 能轻信 平均数 的最好 例子。 

表面 精确会 赋予最 声名狼 藉的统 计数据 看来有 斤两。 考虑小 数点的 例子。 调查一 
百人 昨晚睡 了多少 小时， 比如 说得出 总数为 7,831 小时。 首先， 任 何这样 的数据 
远远 不可能 精确。 大 多数人 的的猜 测有十 五分钟 或更长 时间的 错误， 而且 不能保 
证这 些错误 〔在数 据集〕 会自我 平衡。 有 人失眠 五晚， 只记得 折腾了 半晚。 无论 



如何， 调查 算出各 人的平 均睡眠 时间为 7.831 小时， 听 来你是 知道自 己在做 什么。 
如果 发表的 数字是 7.8 (或 近乎 8) 小时， 这 不是什 么惊人 的吧。 这是拙 劣的接 
近 数值， 比几 乎任何 人的随 意猜测 都没有 什么启 发性。 

马克思 以同样 手法制 造精密 的虚假 氛围。 他 要计算 工厂的 「剩余 价值率 49 」， 开 
始汇 集一些 假设、 猜测和 整数： 「假设 废品为 6%-。 成本 为整数 342 英镑。 有一 
万个 纱锭… 假设 成本为 1 英镑。 折旧率 假设为 10%。 假 设工厂 租金为 300 英镑。 
这些 数据是 由一位 曼彻斯 特市纺 纱工人 提供， 可以信 赖。」 马克思 利用这 些近似 
数 值算出 剩余价 值率是 6%。 50 

百分比 是制造 混乱的 沃土。 一 如令人 印象深 刻的小 数点， 百 分比为 不精确 数据罩 
上精密 的光环 。美 国劳工 部曾表 示华盛 顿特区 的兼职 家庭在 指定月 份领取 的交通 
津贴， 有 49% 是 每星期 18 美元。 细查 之下， 这个百 分比原 来出自 两个只 有四十 
一项 优惠的 案例。 基于少 数案例 的任何 百分比 都可能 误导； 直接给 出数字 更能提 
供更多 讯息。 如 百分比 带上小 数点， 小心 欺诈。 

「现 在购 买圣诞 礼物， 节省 100%!」。 这 广告听 来像是 圣诞老 人自掏 腰包， 但只 
是制造 混乱。 原来 是减价 50%。 节省 100% 是指新 价格的 100%; 这是 事实， 但不 

是广告 吹嘘的 事实。 

标准 石油公 司的文 献走得 更远： 「割价 14〜220%」。 这似乎 要求卖 方支付 买方一 
笔可观 费用去 拉走油 腻腻的 东西。 

某公 司宣布 货品销 售获利 3,800%， 算 自成本 1.75 元 和售价 40 元。 计算利 润百分 
比有多 种方法 （必 须说明 ）。 如果 以成本 计算， 利 润率是 2,185%; 以售价 计算是 
95-6%。 这间 公司发 明了新 方法， 得出了 夸张的 数字； 而这似 乎常常 发生。 

甚至纽 约时报 转载美 联社报 导时， 也犯了 「移 动基数 51 」 的 错误： 「经济 萧条今 
天 狠狠地 打了工 人一记 重拳。 印第 安纳波 利斯建 筑贸易 工会属 下的管 道工， 泥水 
匠， 木匠和 其他工 获得工 资增加 5%。 这只 是他们 去年削 减工资 20% 的 四分之 一。」 

表面 看来这 算法很 合理； 但 跌幅是 基于一 个基数 （工 人之前 的工资 ）， 而 今年的 
加 薪是基 于另一 个较小 的基数 （现有 薪酬水 平）。 

小 小心算 即可指 出以上 是统计 误算。 为简单 起见， 假 定原来 工资是 每小时 $1， 削 
减 20% 即是 下跌到 $0.8。 $0.8 增加 5% 即为 $0.04， 这是削 减额的 V5， 不是 V4。 



rate of surplus-value 

看不 清原文 的计算 方式， 笼统 译之。 
Shifting Base 



一如许 多诚实 谎言， 这篇 报导夸 大了一 个本来 很好的 故事。 

这一切 说明： 要抵 消减薪 50%， 下一次 加薪必 须争取 100%。 

「转移 基数」 做 成许多 折扣的 错觉。 「五 折再 八折」 不是 原价的 三折， 而是 四折， 
因为 「八 折」 是以 较小的 「五 折价」 为 基数。 

一种装 模作样 的欺骗 手法是 把不对 号但似 乎相关 的东西 相加。 一代 又一代 顽童都 
用 这 一套证 明 他 们不用 上学 。 

你可 能还记 得吧。 一年 365 天， 减去 在床上 度过的 122 天 （三 分之一 ）， 再减去 
饮 食时间 45 天 （每天 三小时 ）。 剩余的 198 天 要扣了 90 天暑 假和其 他假期 21 

天。 剩 下来的 日子甚 至不够 分配给 周未。 

你可能 认为大 企业不 会利用 这古老 和明显 的伎俩 ，但 美国汽 车工会 坚持汽 车企业 
依然用 这一套 来对付 他们。 

每一次 罢工期 间都会 出现这 谎言： 汽 车企业 声称罢 工每天 的损失 是若干 百万美 
元。 这数 字来自 如罢工 工人全 力工作 会制造 出来的 汽车， 加上供 货商的 损失。 一 
切可能 的被加 进来， 包括销 售商的 损失。 

同样 奇怪的 概念是 百分比 可以自 由加在 一起。 《纽约 时报》 书 评版这 样说： 书价 
和作者 收入之 间的差 距越来 越大， 是由于 生产和 材料成 本大幅 上升。 在过去 十年， 
厂房 及制造 费用上 升多达 10-12%， 材 料上升 6-9%， 销售及 广告开 支向上 攀升超 
出 10%。 只是 一间出 版社， 这些林 林总总 加起来 至少有 33%; 较小 规模的 出版社 
几近 40%。 

其实， 如果 每个成 本项目 上涨约 10%， 总 成本必 然也以 10% 同 样比重 攀升。 把各 
项成 本的增 加叠加 起来， 是鬼话 连篇。 今 天你买 了二十 种日常 用品， 发现 每种都 
比 去年价 格上涨 5%， 会否有 人大声 疾呼： 「生活 成本增 加了一 倍！」 

这就 像路边 小贩解 释他的 兔子三 明治如 何能卖 得这么 便宜。 「我 必须 渗一些 马肉： 
一只兔 子的肉 渗入一 匹马的 肉。」 

工会反 对一位 「聪明 笨伯」 老板定 义每小 时平均 工资： 正 常工时 每小时 $1.5， 加 
班 每小时 $2.25， 周 末加班 每小时 $3， 共 三小时 得出平 均每小 时工资 $2.25。 这有 

意 思吗？ 



混淆 「百 分比 percentage 」 和 「百 分点 percentage point 」 是容易 堕入的 陷阱。 如 

投资的 利润从 去年的 3% 攀升至 今年的 6%， 可以低 调只是 「增 加三 个百分 点」， 
或是大 事张扬 「增 加了 百分之 百」。 特 别是民 意调查 最常利 用这种 手法。 




Mr r , 10% 50% 70S, 

211% 40% 60% 80^ 



正态分 布的百 分位数 



百 分位数 percentile 是统计 术语， 容易 骗人。 这基本 上是将 一组数 据从小 到大排 

序， 并计算 相应的 累计百 分位， 某百分 位所对 应数据 的值就 称为这 百分位 的百分 
位数。 例如代 数班有 三百名 学生， 按各 人成绩 排序， 百 分位数 99 是成绩 最佳前 
三名， 其后三 位是百 分位数 98 ， 依此 类推。 百 分位数 有奇怪 而容易 混淆的 地方: 
百 分位数 99 的三 位学生 的成绩 远远优 秀于百 分位数 90 的 三位， 而在百 分位数 
40 至 60 的几十 位学生 成绩可 能几乎 相等。 这 是由于 世事万 物的正 态排序 惯常呈 
钟形 曲线： 最优最 劣只占 少数， 大多数 趋向中 位值。 

偶尔 统计人 员发动 内战， 旁观 者察觉 到事有 蹊跷。 美 国钢铁 工会为 了争取 改善待 
遇， 指出以 1939 年为 基数， 行业的 生产力 已大大 提高， 所 以钢铁 企业有 能力加 
薪。 工 会没有 说明因 为特别 事故， 1939 年 的产量 超低。 企 业的欺 骗手法 也不甘 
示弱， 坚 持员工 的总薪 资已有 上升。 这不 是平均 时薪， 而是 全体员 工的总 收入， 
其中包 括许多 早期以 散工身 份加入 企业， 后 来转为 长工的 人员； 即 使工资 水平没 
有 上升， 这么多 任务人 的收入 必然会 增加。 




《时 代》 杂志的 图形一 向精益 求精。 这 张插图 说明图 表可以 
是百 宝袋， 任 由劳方 资方随 意抽出 所需的 证据。 这插 图其实 
是表 达同样 数据的 两张插 图迭加 一起。 

方 格图显 示工资 和利润 （以十 亿美元 为网格 线比例 ）， 很明 
显 两者都 上升， 而去年 工资的 增长是 利润的 两倍。 以美 元计， 
工资 增长是 利润的 六倍。 巨大的 通胀压 力似乎 是来自 工资。 



白底插 图显示 工资和 利润增 加的百 分比。 工资 线相对 平稳， 利润线 大幅度 向上。 
由 此 可见通 胀压力 主要来 自 利润 。 



你可 以得出 自己的 结论， 或是 更好的 看到任 何一方 都不是 通胀的 主因。 能 够及时 
简单 地指出 争论的 主题不 是表面 的非黑 即白， 已经有 助人们 理解。 

指 数数字 52 至关 重要， 影响 百万受 薪族的 工资。 因此 要提醒 各位这 也是任 人剪裁 
的。 

以 最简单 的例子 为例： 去年， 牛 奶每瓶 10 
便士， 面包每 个也是 10 便士。 今年牛 奶降价 
到 5 便士， 面包是 20 便士。 这说明 什么？ 生 
活成 本是涨 了还是 降了？ 还 是没有 变化？ 



考虑以 去年为 基期， 把 当时价 格作为 100%。 

Last year This year 

' 由于 牛奶价 格减半 (-50%) 而面 包价格 翻了一 

倍 (+200%); 50 和 200 的平 均值为 125， 价 格涨了 25%。 

再试 一次， 以 今年为 基期。 牛奶 本来是 现价的 
200%, 面包是 现价的 50%。 去 年价是 今年的 
125%。 



为 了证明 成本水 平没有 改变， 简 单切换 为几何 
平均值 53 ， 并 以两个 年份为 基准。 这少 许有别 
于 算术平 均值， 但也 是完全 合法， 并在某 些情况 下是最 有用和 启发。 要得 到三个 

数字的 几何平 均值： 各数 相乘， 得出立 方根。 四个数 字取第 四根， 两个数 字取平 
方根。 就是 这样。 

以 去年为 基准， 价格 水平为 100。 实 际是每 项乘以 100%， 取其平 方根， 得出 100。 
以 今年为 基准， 牛 奶是去 年价格 50%， 面包是 200%， 200 乘以 50 得出 10,000; 

其 平方根 100 即是 几何平 均值。 各项价 格没有 上涨或 下跌。 

事 实是尽 管统计 有数学 基础， 但既是 艺术， 也是 科学。 在这 范围内 有许多 操作， 
甚至 扭曲。 通常情 况下， 统 计学家 必须选 择表达 事实的 方法， 这是 主观的 过程。 
在 商业现 实中， 他不太 可能选 择对己 不利的 方法， 一 如广告 撰稿人 不会描 绘赞助 
商 的产品 不坚实 和不够 档次， 他会说 轻巧和 经济。 

即使是 学术界 可能也 有偏差 （可能 无意识 ）， 特 别想证 明某这 一点。 





Index number 
geometric average 



这 表明我 们要三 思统计 材料， 在 报纸和 书籍， 杂志和 广告的 事实和 数据。 但随意 
拒 绝统计 方法也 是没有 意义。 这就 像拒绝 阅读， 因为 作家有 时用文 字来掩 饰事实 
和 关系， 而不 是披露 公开。 



补 充材料 



数据集 的误区 

大量的 数据才 能得出 有效的 平均值 ，并准 确预测 趋势。 一万人 的数据 优于一 百人。 

只有 3-5 个数 值的数 据集， 得 出的结 果并不 真实。 

数据 集不仅 要很大 规模， 也要很 广泛。 地质 学家调 查沙漠 数据， 在 沙漠十 个不同 
地 点收集 100 个 数据， 要比在 同一地 点收集 1,000 个 数据更 准确。 

有两 个人， 有一位 双腿截 断了。 无论 选择哪 一种平 均值， 只 要不被 看出只 有两个 
样本， 那 么就无 法辩驳 「人平 均有一 只脚」 的 结论。 

有 些调查 故意这 样做。 例如， 人口统 计想要 找出男 性更倾 向某种 职业， 那 么只需 
要调 查男性 人群。 

一些小 项调查 经常错 误地把 控制集 的调查 结果等 同普遍 结果划 等号。 小项 调查没 
有办 法调查 广泛、 随机 的城市 人口， 学院 调查经 常方便 地面向 大学生 人群， 尤其 
是心理 学测试 实验。 即使 调查报 告说明 情况， 但新闻 机构为 了发表 耸人听 闻的报 
道， 往往 把细节 模糊， 利用 院校层 次的调 查结果 来以偏 概全。 

使用不 平衡的 数据集 撒谎的 做法非 常狡猾 。技 巧是把 那些其 实并不 能相提 并论的 
数据放 在一起 比较。 例如， 十万 人口的 新城镇 在十年 新增一 万人， 比较原 本只有 
十个 居民的 小村落 在十年 增多十 个人， 那么就 可以理 直气壮 地总结 小村落 人口增 
长 更快。 

有时 市场调 查会利 用这技 巧来发 表销售 数据。 调查 苹果和 橘子的 销量， 但 是调查 
到 了一半 橘子由 于存货 不足卖 光了， 但调 查依然 继续， 那么 苹果销 量就会 远远高 
于 橘子， 即使 苹果并 不是真 的更受 欢迎。 

解读调 査数据 的误区 

许多事 物的因 果关系 涉及多 个甚至 无数的 因素， 调查 往往不 能孤立 少数因 素以设 



计 对照组 研究。 



另一 方面， 这 些复杂 关系又 方便了 调查从 中撮出 一些有 利本身 观点的 结论。 常见 

的统 计陷阱 是调查 测试包 含大量 应变项 (dependent variable), 方便 找出一 个有利 

自 己的似 是而非 的因果 关系。 



第十章 如何反 驳统计 的谎言 



最 后一章 解释如 何看透 虚假的 统计， 如何 从中找 出可信 可用的 统计。 

不是所 有眼见 的统计 讯息可 以诉诸 化学分 析或踏 实研究 的诚实 测试。 以下 五个简 
单 问题有 助找出 答案， 避免 受骗。 

(一） 谁的 统计？ 

要 寻找的 第一个 答案是 偏见： 进行调 查和发 表结果 的一方 有什么 动机？ 实 验室是 
为了 理论， 名 声还是 收费而 去证实 什么？ 报章是 否追求 销路？ 劳资 双方是 否要鼓 
吹某 个工资 水平？ 

留意 故意的 偏误。 这可能 是直接 的错误 陈述， 可能 是模棱 两可的 不明确 声明， 可 
能 是选择 有利数 据和忽 略不利 数据， 转换测 量单位 （例如 选择有 利的数 据作比 
较）， 可能选 用不适 合的计 量单位 （例如 采用平 均数， 而中 位数能 披露较 翔实或 
更多讯 息）， 以 没有说 明的平 均数挂 羊头卖 狗肉。 

公 司宣布 3,003 人持 有公司 股票， 平 均持有 660 股。 这是 真实的 数据， 但 没有说 

明 三位大 股东已 持有总 股票数 量四份 之三， 另 外三千 人共持 有余下 的四份 之一。 

要留意 无意的 偏见， 这往 往是更 危险。 在 1928 年， 许多统 计学家 和经济 学家发 
布 图表和 预测， 证 明经济 繁荣， 无视 经济结 构中的 裂纹。 

面 对这些 「证 据」， 至少要 一看再 看是谁 发表这 些统计 数据， 无论 是声名 显赫的 
政界、 科学实 验室、 甚至 大学。 报导 引述： 「某 某大学 研究发 现…」 ， 要注 意的不 
是 「某 某大学 研究发 现…」 ， 而 是谁在 引述， 因为引 述的结 论往往 是作者 之言， 
不一定 是某某 大学的 结论。 

《芝加 哥商业 期刊》 大事公 告该期 刊调查 169 间企业 有关对 抬高价 格和囤 积居奇 
的 结果： 三分 之二企 业宣布 他们面 对远东 地区的 加价， 是一 如既往 由企业 吸收消 
化 部份。 期刊说 （每遇 上这些 说话， 要加倍 留神！ ）： 「调查 显示这 些美国 企业没 
有追随 他人提 价。」 这是明 显的要 质疑： 「是 谁这 么说？ 」 由 于期刊 可被视 为有利 
害 关系， 这 也顺延 到第二 个测试 问题： 



(二） 他怎么 知道? 



取样 

期 刊相当 取巧： 事实 是调查 对象为 1,200 间 公司， 其中 9% 回 答没有 提价， 5% 有 
升价， 86% 没 有回答 问卷。 调 查结果 是基于 有回答 问卷的 14%。 

要注 意样本 偏差的 证据， 选 错样本 可能是 无心， 可能是 有意。 上文已 提醒： 样本 
是 否足够 的大， 足以产 生任何 可靠的 结论。 

要同 样小心 处理报 导的相 关性： 相关 性是否 够大， 有 重要的 意义？ 是否有 足够的 
案例赋 予任何 意义？ 一 般读者 不懂应 用显著 性检验 54 来 确定样 本是否 足够。 但许 
多报导 一眼就 能看出 （可能 要花点 时间） 是否 有足够 案例足 以说服 任何有 理性的 
读者。 

(三） 什么不 见了？ 

即 使信息 来源响 当当， 如没 有明告 有多少 个案， 已 足以引 起合理 怀疑。 同 样的， 
如提 到关连 性但没 有给出 可靠性 的计量 （可能 误差， 标准误 差）， 也足以 引起合 
理 怀疑。 

提防平 均值以 及没有 指明的 各种平 均值， 要知道 在很多 情况， 平均 数和中 位数会 
有很大 差别。 

很多数 字没有 意义， 因 为没有 比较。 例如 「蒙 古症研 究发现 2800 个案例 超过一 
半的 母亲是 35 岁或以 上」。 除 非知道 妇女一 般生儿 育女的 年龄， 这 说法没 有特别 
意义。 很少 人知道 妇女一 般生儿 育女的 年龄。 

另一 例子： 「卫生 部最近 公布的 数据显 示在过 去雾霾 天气的 一周， 死亡人 数增加 
二 百八十 人。」 死亡 人数增 加是否 与雾霾 有关？ 一般 的死亡 人数是 多少？ 下一周 
的 死亡人 数会否 减少？ 是否因 为雾霾 加速了 某些人 死亡？ 「死 亡人 数增加 二百八 
十人」 引人 注意， 但由于 没有其 他数字 比较， 意义 不大。 

如只给 出百分 比而没 有原始 数据， 小心 小心。 很久 之前， 美 国约翰 霍金斯 大学有 
一段 有趣的 报导： 女大学 生有！ ^与教 员共谐 连理。 惊 人的百 分比。 原始 数据说 
得 清楚： 许多 年前， 美国 大学生 只有极 少数是 女生； 当年 有三位 女生， 其 中一人 



tests of significance 



嫁给 教师。 



多 年前， 波 士顿总 商会的 「优秀 女性成 就奖」 宣称： 十六位 名列名 人录的 女士共 
有 六十个 学位和 十八名 子女。 这 些个人 资料看 来颇为 扎实， 但原本 其中有 两位奇 
人， 她 们共有 三十个 学位， 而其中 一位有 子女十 二人。 

留 意指数 有许多 疏漏： 可能是 基数。 劳 工组织 指出在 经济衰 退后利 润和生 产指数 
上升快 于工资 指数。 指数 没错， 但 没有说 明前者 的基数 较低， 所以 经济复 苏时增 
加 的百分 比几乎 必然是 较高。 

有时 指数的 缺失是 没有说 明导致 变化的 因素， 有意或 无意暗 示是因 为一些 其他因 
素。 今年 二月的 零售数 字低于 去年， 但没有 指出去 年的春 节是在 二月， 今 年在一 
月。 

过 去几十 年有关 癌症死 因的报 告是误 导的， 因 为有许 多外在 因素： 以前对 癌症所 
知 不多， 死因往 往列为 「死 因不 明」； 现 在有更 多死因 解剖， 诊断更 可靠， 医疗 
统计 数据较 齐全； 现 代人更 长寿， 更多人 活到容 易患上 癌症的 年龄。 如果 只看总 
死 亡人数 而不是 死亡率 ， 不要忽 视现在 的人 口比以 前更多 的事实 。 

(四） 是否 有改变 主题？ 

留意 原始数 据和结 论之间 是否被 转移， 声东 击西。 

正 如上文 指出， 更 多呈报 病例并 不总是 更多人 染病。 测验民 意的投 票并不 一定反 
映正式 投票的 结果。 杂志读 者的兴 趣调查 不担保 他们会 从头到 尾细读 文章。 

某年， 美国 加州中 央谷地 呈报脑 炎病例 大幅度 增加， 是 去年的 三倍。 很多 居民感 
到 震惊， 把子 女暂送 外地。 但死亡 数字没 有很大 改变； 原来 是州政 府和联 邦政府 
开始投 入资源 解决这 个长期 问题； 因为 他们的 努力， 发现许 多以往 被忽略 的低程 

度 病例。 

大 家可能 留意到 在某段 时间， 报 章特多 报导某 类型的 罪案或 事件， 感觉是 无日无 
之， 但过不 了多久 又沉寂 下来。 如仔细 追寻， 相关的 官方数 字没有 增加。 这只不 
过是有 一两位 记者当 其时特 别多这 方面的 报导， 其他记 者不得 不追随 其后。 



英国 公共工 程部调 查六千 户有代 表性的 家庭， 发表 报告： 「英 国男 士在夏 天平均 

每 周沐浴 2 次， 冬天 1.7 次； 女性是 2 次和 1.5 次」； 引来报 章头条 报导英 国男士 

每周 沐浴次 数多于 女士。 



这些 数字要 更令人 信服， 定 要说明 是平均 数或中 位数。 然而， 更严 重的弱 点是问 
题的主 旨已经 改变。 调查 真正发 现的是 「人们 随口回 答他们 的洗澡 次数， 而这不 
是 反映现 实」。 这 是相当 隐私的 问题， 受访 者要顾 全自己 的面子 （经 常沐 浴是良 
好的 个人卫 生习惯 ）， 对调查 员给出 的答案 往往不 是实际 情况。 

「离 题」 还 有更多 的品种 变化。 

《振兴 农业》 调 查发现 美国农 场比五 年前增 加了五 十万。 这 两个相 应的数 字其实 
不 是计量 同样的 事情， 因为 调查局 改变了 农场的 定义， 新数 据包括 了旧定 义不涵 
盖的三 十万个 农场。 

人口普 查发现 奇怪的 数据： 例如 三十五 岁的人 口不正 常地多 于三十 四岁和 三十六 
岁的 人口。 查究 之下， 发现数 据是根 据家人 自报， 他 们倾向 把岁数 顺便调 整为方 
便 的五的 倍数。 要 解决这 问题的 方法是 要求呈 报准确 的出生 日期。 

中国 某大区 「人 口」 是 28 万， 五年 后升至 105 万。 这幅度 的增长 当然有 问题， 
深究之 下原来 两次调 查是为 了不同 目的： 第一次 是税务 普查， 第二 个为了 饥荒救 

济。 

美 国也有 一例。 十年 一度的 人口普 查发现 65 至 70 岁 年龄组 高于十 年前的 55 至 
60 年 龄组。 移民数 字不能 解释这 差异。 主要 原因是 颇大数 量的受 访者为 了领取 
社会 保障金 而虚报 年龄， 也有可 能是之 前为了 虚荣心 而少报 年龄。 

美国参 议员指 责囚犯 的住宿 费用比 市中心 酒店还 要昂贵 ，其 实是混 淆了囚 犯的整 
体管理 费用， 这包括 了监狱 人员的 薪俸。 

各 种事后 孔明的 废话是 暗地改 变主题 的另一 方式。 

还 有许多 「我是 第一」 的 形式。 几乎 任何事 物都可 以宣称 自己是 第一， 只 要不是 
太 特别的 什么。 

当你 考虑直 接购买 或分期 付款， 比较借 钱成本 会因为 「改变 主题」 而难以 比较。 
百 分之六 听起来 像百分 之六， 但 可能不 是真的 如此。 向银 行借贷 100 元， 利率 
6%， 一 年内每 月清还 利息约 3 元。 但大 多数汽 车贷款 标榜的 「每百 元利息 六元」 
其利 率实为 双倍， 不容易 明白。 



更糟糕 的是美 国的冷 冻食品 计划。 粗心 的买家 被告知 「6-10%」 的 数字。 这听起 



来是 利息， 事 实并非 如此。 这是 还款的 数字， 更 糟糕的 是这往 往是以 六个月 计算， 

不是 一年。 100 元 价格的 食品， 每 月还款 12 元， 等同真 正利率 48%。 难 怪有这 

么 多客户 拖欠， 食品 计划要 结束。 

有 时候会 以语义 来改变 主题。 《商业 周刊》 的 报导： 会计 师决定 「过 剩」 是讨厌 
的 词语， 提出 企业资 产负债 表不再 采用， 改为 「留存 收益」 或 「固定 资产增 值」。 

(五） 是否有 意义？ 

「是 否有 意义？ 」 往往能 够把基 于未经 证实假 设的整 个繁琐 统计回 归应有 地位。 
RudolfFlesch 提 出文章 可读性 公式： 简 单和客 观计算 单词和 句子的 长度。 以数字 
取 代无法 估量的 论述， 以算 术取代 判断， 这 是有吸 引力的 想法。 至 少雇用 作家的 
人， 如 报纸出 版商， 甚至 许多作 家本身 都应该 注意。 公式假 设字词 的长度 决定可 
读性。 这是 否故意 刁难， 还有待 证明。 Robert A.Dufour 利 用这公 式评审 一些文 
献， 颇 为得心 应手， 有助判 断一篇 文章、 一本 着作是 否比较 难读。 

许多 统计数 字表面 上已是 虚假， 只因为 数字的 魔力令 人忘却 了常识 而蒙混 过关。 
Leonard Engel 的多 篇杂志 文章列 举了几 个医疗 案例。 

一个例 子是著 名的泌 尿科专 家计算 美国有 八千万 前列腺 癌病例 - 足以涵 盖易感 
年龄 组的每 位男性 ！ 另 一例是 神经科 医生估 计每十 二名美 国人有 一人患 有偏头 
痛； 因为 偏头痛 占慢性 头痛病 例三分 之一， 这 意味人 人每一 季度会 患上失 能性头 
痛。 还有一 个例子 是经常 提到的 二十万 宗多发 性硬化 症病， 但死亡 数据表 明这种 
病例不 会超过 三至四 万宗。 

关于修 改社会 保障法 一直饱 受各种 形式的 声明； 如未 经仔细 考证， 这些声 明各有 
各的 道理。 论点 之一是 既然预 期寿命 只有约 63 年， 退休年 龄订为 65 岁是 虚假和 
欺诈 行为， 因为几 乎每个 人都在 这之前 死亡。 

只要看 看你认 识的人 就可以 反驳这 论点。 基本 谬误是 这数字 是指出 生时的 预期寿 
命， 因此大 约有一 半婴儿 可以预 期活到 65 岁。 顺便说 一句， 这数 字来自 1939-41 
年 期间， 已 经过时 但仍然 使用。 经过一 代人后 计算， 目前 的预测 数字是 69.7 岁； 
这 个新数 字同样 愚蠢， 几乎每 个人现 在活到 65 岁 。 

多 年前， 一 间大型 家电公 司的产 品规划 是基于 出生率 下降， 长久以 来已被 认为是 
理所 当然。 规 划要求 重视小 电器， 适 合公寓 大小的 冰箱。 策 划者之 一突然 回归常 
识： 他放下 图形和 图表， 转 而留意 自己和 同事、 朋友、 邻 居和旧 同学， 除 了少数 
例外都 有三、 四个孩 子或是 计划大 家庭。 这重新 启动没 有成见 的调查 和制图 - 该 



公 司 很快转 向 最有 利可图 的大 户型。 



赫然 精确的 数字往 往违背 人们的 常识。 纽约市 报纸报 导一项 研究： 与家人 同住的 

在职 妇女每 周生活 所需是 40.13 元。 任 何有常 识的读 者会意 识到生 活成本 无法计 
算到 最后一 分钱。 但是 40.13 元比 「约 40 元」 更 动听， 更是 可怕的 诱惑。 

外推法 55 是有 用的， 特别是 所谓预 测趋势 的占卜 形式。 看着 这些数 字和从 中衍生 
的 图表， 必须 记住： 至今 的趋势 可能是 事实， 但未来 趋势只 不过是 有些见 识的猜 
测 而矣。 隐含的 意思是 「一 切因素 不变」 和 「目 前的 趋势继 续」， 但世事 偏偏不 
会保持 不变， 否则人 生会很 无聊。 

不 受控外 推法的 废话， 电视 趋势是 例子。 在最初 五年， 美国 家庭的 电视机 数量以 
百倍 增加。 依 此趋势 推论， 再过 五年会 有几千 万部， 大概每 家有四 十部。 



1948 年美国 总统选 战预测 是统计 史的大 笑话。 选举 前的各 项民意 调查大 多预测 
共和党 候选人 Tom Dewey 获胜。 结果 是民主 党杜鲁 门得票 49% 胜出。 盖 洛普选 

举预测 被称为 「人 类历 史上最 公开的 统计误 差」。 

专家 分析民 调出现 偏差的 原因， 结论 有三： 调查 抽样偏 离了代 表性、 民 调提早 
一星期 结束， 没能 反映最 后时刻 的民意 变化， 以及 政治偏 见妨害 了编辑 的客观 
立场。 当 年报社 老板多 为共和 党人， 报纸挺 共和党 的当然 较多。 56 



相对于 一些未 来人口 预测， 这已是 准确的 典范。 近至 1938， 总统 的专家 委员会 
深信美 国人口 永远不 会达到 1.4 亿； 十二年 后这数 字已是 1.52 亿。 这些可 怕的低 

估源于 假设趋 势将继 续没有 变化。 



1874 年， 马克 • 吐温总 结了外 推法的 废话: 



在一百 七十六 年间， 密 西西比 河下游 缩短了 242 英里， 即是 每年平 均缩短 1 
W 英里。 依此 推论， 一百 万年前 的密西 西比河 下游足 足有一 百万英 里长， 
像钓鱼 杆伸出 了墨西 哥湾， 也 可以推 论七百 四十二 年后， 密西 西比河 下游将 
只有 1^4 英里。 科学真 有趣。 只 需投入 少许事 实就可 以得出 这样的 回报。 



Extrapolation 

改写自 http:〃hk.crntt.com/crn-webapp/mag/docDetail.jsp?coluid=36&docid=102284142&page=4 



附录 



香港 大学民 意调査 的争论 



(自 学书 院注： 在 翻译这 本小书 期间， 香港 正好有 一场有 关民意 调查的 笔战， 也正 好印证 民调和 
统计的 重要意 义和容 易陷阱 〔正 反双 方皆如 是〕。 事缘香 港特首 57 不是全 民选举 产生， 无 从得知 
究竟有 多少选 民属意 他领导 香港， 于是定 期民意 调查是 各方关 注的寒 暑表。 香港大 学民意 研究计 

划 和香港 中文大 学亚太 研究所 的定期 民调最 为各方 关注。 现 任香港 特首梁 振英自 2012 年 7 月就 
任 以来， 民 望一直 在所谓 合格线 (50) 徘徊。 为此， 行 政会议 58 议员张 志刚向 香港大 学民意 研究计 
划 发炮， 引来一 场不大 不少的 笔战。 奇怪 的是亚 太研究 所的民 调结论 也是差 不多的 「不合 格」， 
但梁粉 〔梁 振英 粉丝〕 没 有为此 着墨。 辑 录这几 篇文章 颇多香 港文体 用语， 请享 用。） 

港大 民 研发放 特首及 问责 司局长 民 望数字 

2014 年 3 月 11 日 〔香港 大学民 意研究 计划〕 新 闻公报 

特 别宣布 

在促 进学术 研究和 理性讨 论的基 础上， 香 港大学 民意研 究计划 （民研 计划） 今日 
在发放 各项民 望数字 之余， 更加把 关键原 始数据 上载到 《香 港大学 民意网 站》， 
包 括特首 评分、 被访者 性别、 年龄 组别、 以 及加权 指数。 这种透 明度， 已 经超过 
一 般学术 与专业 要求， 希望社 会人士 珍惜。 学者专 家使用 及引用 有关数 据时， 请 
按照 学术惯 例列明 出处。 

• 下载原 始数据 ： 2014 年 3 月 11 日 公 布之特 首评分 

公 报简要 59 

民研 计划在 2014 年 3 月 3 至 6 日 期间， 透过 真实访 员以随 机抽样 方式， 成功以 
电 话访问 1,017 名香港 巿民。 调查 显示， 特首 梁振英 的最新 支持度 评分为 47.5 
分， 支 持率为 25%， 反 对率为 56%， 民望净 值为负 31 个百 分比， 跟两星 期前变 
化 不大。 …根 据民研 计划的 标准， 梁振 英属于 「表 现失 败」。 在 95% 置信水 平下， 
各 项百分 比的最 高抽样 误差为 +/-4 个百 分比， 评 分及支 持率净 值误差 另计， 调查 
的响 应率为 66%。 

注意 事项： 

[1] 《香 港大 学民意 网站》 的 网址为 http:〃hkupop.hku.hk ， 传 媒可到 网站参 阅调査 细节。 

[2] 调查之 样本为 1,017 个成功 个案， 并非 1,017 乘以 响应率 65.9%， 过去有 不少传 媒在报 导上犯 

了上述 错误。 



香港 特别行 政区行 政长官 （又 称特区 首长、 俗称 特首； 英语： Chief Executive) 
Executive Council, 即 是特首 「内 阁」。 

这 项定期 的民意 调査涵 盖香港 特区行 政长官 （特首 ） 和主要 官员的 民望。 为方便 阅读， 附 录略去 有关主 要官员 部份。 



[3] 95% 置信 水平， 是 指倘若 以不同 随机样 本重复 进行有 关调査 100 次， 则 95 次的 结果会 在正负 
误差 之内。 传媒 引用本 调查的 评分数 字时， 可 以注明 「在 95% 置信水 平下， 各项评 分误差 不超过 
+/-1.8， 百分 比误差 不超过 +/-4%， 净 值误差 不超过 +/-6%」。 由 于民研 计划在 2014 年引入 「反复 

多重加 权法」 处理 数据， 交接 期间， 各项数 字变化 的差异 是否超 过抽样 误差， 是基 于同类 加权方 
法 处理后 的结果 计算。 换 言之， 2014 年 第一次 所得数 据是否 与上次 调查存 在显著 差异， 是基于 
两组数 据同样 经过反 复多重 加权后 作出的 比较， 而非单 从公布 数字表 面运算 得来。 
[4] 因 为调查 存在的 抽样误 差及处 理数据 的舍入 过程， 数字不 能过份 精确， 合计数 字亦未 必完全 
准确。 因此， 传媒 在引用 有关调 查的百 分比数 字时， 应避免 使用小 数点， 在引用 评分数 字时， 则 
可 以使用 一个小 数点。 

[5] 调查 数据并 非透过 音频互 动系统 取得， 倘 若调查 机构以 「计 算机 随机抽 样电话 访问」 或类似 
文字来 掩饰音 频互动 调查， 是不 专业的 做法。 

最 新数据 

民研计 划今日 发放特 首梁振 英及各 问责官 员的最 新民望 数字。 2014 年起， 民研 
计划把 以往按 照年龄 及性别 分布进 行的简 单加权 方法， 改良成 为按照 年龄、 性别 
及教 育程度 （最 高就读 程度） 分布的 「反 复多重 加权」 方 法调整 数据。 今 天公布 
的最新 数据， 是按 照政府 统计处 提供之 2013 年底全 港人口 年龄及 性别分 布初步 
统计 数字， 以及 2011 年人口 普查收 集之教 育程度 （最 高就读 程度） 分布 统计数 
字， 以 「反复 多重加 权法」 作出 调整。 现先 列出最 新调查 的样本 数据： 



调 查日期 


总 样本数 


回 应比率 


最 高百分 比误差 [6] 


3-6 胸 14 


1,017 


65.9% 


+/-3% 



[6] 有关 误差数 字均以 95% 置信水 平及整 体样本 计算。 95% 置信 水平， 是指 倘若以 不同随 机样本 
重复 进行有 关调查 100 次， 则 95 次 的结果 会在正 负误差 之内。 个别 题目如 果只涉 及调查 内若干 
次 样本， 百分 比误差 会相应 增加。 评分及 支持率 净值误 差则会 按照样 本评分 及支持 率净值 的分布 
情 况另行 推算。 



由于 不同题 目涉及 调查内 不同次 样本， 误差 会相应 变化。 下 列参考 数表笼 统列出 
样本数 目与最 大抽样 误差的 关系， 方便 读者掌 握有关 变化： 



样 本数目 （不 论是 
总样 本或次 样本） 


百分 比误差 [7] 
(以 最高 值计） 


样 本数目 （不 论是 
总样 本或次 样本） 


百分 比误差 [7] 
(以 最高 值计） 


1,300 


+/- 2.8 % 


1,350 


+/- 2.7 % 


1,200 


+/- 2.9 % 


1,250 


+/- 2.8 % 


1,100 


+/- 3.0 % 


1,150 


+/- 3.0 % 


1,000 


+/- 3.2 % 


1,050 


+/-3.1% 



900 


+/- 3.3 % 


950 


+/- 3.2 % 


800 


+/- 3.5 % 


850 


+/- 3.4 % 


700 


+/- 3.8 % 


750 


+/- 3.7 % 


600 


+/- 4.1% 


650 


+/- 3.9 % 


500 


+/- 4.5 % 


550 


+/- 4.3 % 


400 


+/- 5.0 % 


450 


+/- 4.7 % 



[7] 以 95% 置信水 平计。 

以下 是特首 梁振英 的最新 民望 数字: 



调 査日期 


2-6/1/14 


15/1/14 [8] 


18-22/1/14 


4-6/2/14 


17-20/2/14 


3-6/3/14 


最 新变化 
















样 本基数 


1,018 


1,017 


1,014 


1,030 


1,031 


1,017 




整体回 应比率 


66.5% 


66.7% 


67.6% 


65.5% 


67.8% 


65.9% 




最 新结果 


结果 


结果 


结果 


结果 


结果 


结果 及误差 [9] 




特 首梁振 英评分 


45.6 


48.9 [10] 


47.0 [10] 


47.9 


46.4 


47.5+/-1-5 


+1.1 


梁 振英出 任特首 支持率 


27% 


29% 


29% 


25% [10] 


23% 


25+/-3% 


+2% 


梁 振英出 任特首 反对率 


58% 


53% [10] 


54% 


56% 


56% 


56+/-3% 




支持 率净值 


-31% 


-24% [10] 


-26% 


-32% [10] 


-33% 


-31+/-5% 


+2% 



[8] 是次 调查为 施政报 告实时 调查， 只问及 特首评 分及支 持率。 



[9] 表中所 有误差 数字以 95% 置 信水平 计算。 95% 置信 水平， 即是指 倘若以 不同随 机样本 重复进 
行有 关调查 100 次， 则 95 次 的结果 会在正 负误差 之内。 传 媒引用 上述数 字时， 可 以注明 「在 95% 
置信水 平下， 评 分误差 不超过 +/-1.5， 百分 比误差 不超过 +/-3%， 支 持率净 值误差 不超过 +/-5%」； 

以前调 查的误 差数值 请参阅 网站。 

[10] 该等变 化在相 同加权 方法下 超过在 95% 置 信水平 的抽样 误差， 表示有 关变化 在统计 学上表 
面 成立。 不过， 数字 变化在 统计学 上成立 与否， 并不 等同有 关变化 的实际 用途和 意义。 



【港人 短评】 解开特 首民望 「不 合格」 之谜 

2014-03-14 

港大民 意研究 计划的 民调早 阵子引 起连串 质疑， 未知是 否有见 及此， 今次 港大再 
度公布 特首评 分时， 民 意网站 已出现 所谓的 「原 始数 据」， 虽然相 关档案 的格式 
要以 特定软 件才能 打开， 但内 里所刊 载的正 正是评 分分布 数字。 



特首民 望點解 晤合格 ？ 




为何 特首的 评分又 会不合 格呢？ 最大 W 
是这 些极端 评分， 令 特首的 平均分 大巾， 



民调 应公正 做法 须公平 

依 据港大 最新的 民调， 以 100 分为 满分， 
特 首仅获 47.5 平 均分， 当 然就被 评为不 
合 格了。 然而， 只要打 开原始 资料， 就会 
发现 998 个评分 者中， 原来 有多达 615 
人、 即逾 6 成 人均给 予特首 50 或 以上的 
合格 分数， 其 中更有 29 人给予 100 分； 
仅有 383 人给予 50 以下的 评分。 那么， 
问题 在于有 91 人 个受访 者给予 0 分， 就 
度 拉低。 



然而， 这种 意义甚 为重要 的评分 分布， 港大方 面却未 有主动 公布， 而只是 藏在民 
意 网站的 暗处， 若非 主动寻 找及装 有特定 软件， 根 本无法 知晓！ 这 种藏头 露尾的 
安排， 实在 无法不 令人怀 疑民调 背后的 用意， 即使不 是存心 误导， 但这又 是否一 
个公正 持平的 民调机 构所应 采用的 发布方 式呢？ 



收 集及公 布数据 必须高 度透明 

要知道 的是， 民调机 构如何 采用、 公布、 以至运 用收集 回来的 数字， 对最 终的民 
调 结果又 或市民 观感均 起着决 定性的 影响。 如此 看来， 香港 确实有 必要有 更多独 
立的机 构进行 民调， 并 要高度 透明地 公布收 集到的 数据， 以 助市民 大众通 过比较 

获得 真象。 



张志刚 6Q : 六 成二给 特首打 50 分或以 上说明 什么! 



陈庄勤 先生在 2 月 8 日于 《明 报》 以 〈沉 默的 螺旋〉 为题 撰文， 对 现时中 大亚太 
所 和港大 民意研 究计划 所做的 特首评 分提出 质疑。 重 点就是 机构只 公布平 均分， 
但 打分分 数的分 布却不 清楚， 只靠 一个平 均分， 根本无 法知道 事情的 真象。 而本 
人上周 撰文， 指 出单靠 一个平 均数， 其实就 是瞎子 摸象。 一般的 研究， 除 了平均 
数 之外， 多会公 布众数 （最 多人打 的分数 ）、 中 位数， 以及 50 分 以上的 比率。 当 
时本 人大胆 推测， 众数 和中位 数都是 50， 给 特首打 50 分或以 上的应 该超过 一半。 
文章 见报当 日 ， 港大 民意研 究计划 也公布 了最新 的一次 特首的 评分， 评分为 47.5， 
而港大 也第一 次以附 录形式 把所有 评分的 原始数 据同时 公布， 这也 是解决 了陈庄 
勤和 本人过 去一直 提出的 质疑。 因为 附录必 须要以 SPSS 软 件才能 打开， 一般媒 
体都 不具备 这种统 计分析 的专用 软件， 所以 没有引 起广泛 关注和 报道。 当 我们打 
开这 个原始 数据档 案时， 马 上真相 大白。 陈 庄勤不 用估， 本 人也不 用猜。 

港大首 次公布 所有原 始数据 

港 大把给 0 分到 100 分的频 率全部 公开， 可以 说是非 常公开 透明。 为方便 表述解 
释， 现 把分数 组合成 10 分 一组， 一共 10 组， 评分 分布见 附图。 

经运算 之后， 得出 这样的 结果。 平 均分是 47.5， 众数是 50， 中位 数也是 50， 给 
50 分 或以上 的高达 61.8%。 看完 那些评 分分布 以及这 4 个重要 指标， 我们 不需要 
再瞎子 摸象， 象的形 状完全 出现于 我们眼 前了！ 

平 均分是 47.5， 一般人 的印象 就是不 合格！ 但 如果看 50 分 以上和 以下的 比例， 
在那 998 个给 特首打 了分数 的人， 有 28% 的 人打了 50 分， 给 50 分以 上的有 34%， 
那评 50 分以 上的比 率就是 62%， 比 49 以及 以下的 38%， 多出一 大截。 当 62% 香 

港 市民给 特首打 50 分或以 上时， 这 是合格 还是不 合格？ 一 些耸人 听闻的 讲法， 
例如民 望破产 之类， 又从何 说起。 

把平 均分拉 到只有 47.5 分， 最大的 原因是 大约有 9% 的受访 者打了 0 分。 本人之 
前撰 文也解 释过， 行政长 官的施 政有必 然的两 面性， 无 论政策 多好， 都会 有一些 
人不 满意。 双 辣招有 八成人 支持， 但还有 两成人 反对， 某程度 是利益 之争， 持有 
多 个投资 物业的 人就不 支持， 地产经 纪也不 支持， 迷信 绝对利 伯维尔 场的不 支持。 
因为 支持双 辣招而 支持特 首的， 可能给 60 分， 但反 对双辣 招的就 可能打 0 分。 
这种 给行政 首长的 评分， 就不能 和读书 考试相 比拟， 资质 良好、 读书 用功的 同学， 



60 张 志刚， 香港行 政会议 （相 等于 内阁） 成员， 现任智 库组织 「一 国两 制研究 中心」 总裁。 张 志刚毕 业于香 港中文 大学， 
分别获 授学士 及硕士 学位， 文章常 见于本 港各大 传媒， 着有 《悲 剧， 悲 香港》 及 《风雨 声中》 等书。 

61 原文 刊载于 《明 报》 2014 年 3 月 18 日 



可以 科科取 得优异 成绩， 甚至做 10A 状元。 但 行政首 长推行 政策， 一 定有得 有失， 
结果 也只会 把平均 分拉向 中间。 如果不 看分布 和其他 指标， 就只 会以偏 概全， 甚 
至错下 判断。 

极端 10% 主 导舆情 

除 了看那 50 分和以 上占了 62% 的重要 数据， 我 们不妨 再把那 10 组 的分数 逐一研 
究， 0 分到 9 分的有 10.5%， 这是 最极端 反对梁 先生的 一群。 但 10 到 19 分的却 
只是 1.8%， 20 到 29 分的 也只有 3.9%。 从分布 来看， 这 不算是 正常的 分布， 有 
点 「恶 之欲 其死」 的 味道， 到 30 和 40 分的 两组， 才回复 正常， 逐步 回升到 8.9% 
禾口 13.1%。 

给 50 分或 以上的 分布， 就算 是正常 分布最 多的是 50 到 59 分， 占了 30.7%， 愈 
高分数 的比例 愈低， 逐步 减少， 没 有出现 10 分和 20 分组别 近于断 层式的 分布。 
而这一 成给予 0 到 9 分的 群组， 相 信也是 最主动 发声， 最积 极参与 激烈行 动的一 
群。 当媒体 的目光 让这一 成人吸 引着， 所谓 舆情， 便倾向 了这最 极端的 10%。 50 
分 以上的 组群， 他们相 对平和 理性， 政府 施政， 他 们心中 有数， 但 没有参 与激进 
的意 见表达 活动， 他 们就成 为了沉 默的大 多数。 但当 大学访 问员来 电时， 他们就 
把自己 的评价 说出， 但不幸 的是， 他们 的评分 又给那 9% 给 零分的 人拉低 冲淡， 
如果没 有把所 有得分 公之于 世的一 日 ， 这些 沉默大 多数的 一群， 永远没 有见到 「真 
象」 的 一日， 也永 远让那 极端的 10% 去主导 舆情， 和代表 民情！ 

这种 错误的 代表， 不仅是 把民情 扭曲， 也 形成了 陈庄勤 先生撰 文中所 提及的 「白 
色 恐怖的 寒蝉效 应」。 支 持梁先 生的， 支持 特区政 府的， 都以为 自己是 少数， 这 
令到他 们变得 沉默和 冷漠， 这也 是反政 府群体 最希望 见到的 后果和 现象。 看完这 
堆港 大公布 的原始 数字， 真相 大白于 人前， 支 持梁先 生的， 支持 特区政 府的， 不 
是 少数！ 这说明 过去一 年半的 政策走 对头， 证明特 区政府 官员的 「勤 力用 心」， 
市民 是看在 眼里。 

如果 要正确 的政策 可以走 下去， 可 以开花 结果有 成绩， 不仅 是需要 市民打 一个分 
数， 更 是要他 们表达 意见， 更是要 他们站 出来！ 



张 志刚： 50 分应是 「两分 概念」 




50 分是 「兩分 概念」 ，即合 
格與 晤合格 ， 但港大 民調加 
入 「一 半半」 ，就將 這個分 
布變成 「三 分」 ，分 為合格 
(51 至 100 分） 、 晤合格 (0 至 49 
分） 、 同埋 中間既 「 一半半 j 
(50 分) 。 



但 問題係 ，呢個 「三 分」 晤 
係對 等分配 。 而市民 亦未必 
能一下 子把兩 種概念 分清楚 



張志剛 

一 國兩制 研究中 心總裁 



以及 中间的 「一 半半」 （50 分 ^ 



对 于港大 民意研 究计划 主任钟 庭耀解 
释， 民 调中的 50 分代表 「一半 半」， 即 
非 合格， 亦非不 合格， 一 国两制 研究中 
心总裁 张志刚 表示， 以 0 到 100 分给分 
本来 是一个 「两 分概 念」， 即合 格与不 
合格， 但港 大民调 加入了 「一半 半」， 
就将 这个分 布变成 「三 分」， 即 分为合 
格 (51 至 100 分)、 不合格 (0 至 49 分)， 
但他 质疑， 问 题是， 此 「三 分」 并非 「对 等分 配」， 



而 市民亦 未必能 一下子 把两种 概念分 清楚。 



练 乙挣： 打棍 无效： 网小 子放倒 「巨 人」 张志刚 



知识 不等于 力量， 但如 果缺乏 知识， 就 可以很 悲惨。 无论在 哪里， 若统治 阶级充 
斥不 学无术 之辈， 社 会大方 向要出 问题。 这 里说的 知识， 当 然不是 「公婆 皆可有 
理」 的看法 认知， 而是 客观的 学问。 如 果不仅 是不学 无术， 还是别 有心术 的话， 
这个 统治阶 级无可 药救。 



卧 虎藏龙 

政 改摊牌 渐近， 当 权派集 结力量 围攻钟 民调。 先 是政协 委员、 恒地 副主席 李家杰 
发飙， 公开 指摘钟 氏经常 在关键 时刻发 布对特 府或北 京不利 的民调 结果， 操弄民 
意， 为 反对派 开路。 跟着， 梁 派网站 《港人 讲地》 发 表编辑 室文章 〈解开 特首民 
望 「不 合格」 之 谜〉， 指 钟氏在 最近的 一个关 于特首 民望的 民调里 取巧运 用数据 
说谎， 把一 个好端 端成绩 亮丽的 特首说 成多数 人视为 「不合 格」。 然后， 梁派悍 
将、 行 会成员 张志刚 高调发 言并在 本周二 《明 报》 撰文， 引用 上述网 文核心 内容， 

质 问钟氏 「六 成二给 特首打 50 分或以 上说明 什么？ 」 【注 1】 

结果， 「六 成二给 特首打 50 分或 以上」 说明了 《港人 讲地》 编辑室 文章有 「小 小」 
搞 错了基 本统计 方法， 而 「国 师」 张 志刚懵 然不知 （？ ) 并加 小手脚 发挥， 结果 
闹大 笑话。 

最 先指出 《港人 讲地》 文章 和张志 刚说法 有好几 个严重 初等错 误的， 是一 篇又一 
篇的 网上及 新媒体 文章， 作 者都懂 统计， 却是传 统媒体 里不见 经传的 业余评 论者， 
可谓 小孩大 卫打死 巨人高 利亚， 亦 可谓： 网络 世界， 卧虎 藏龙。 本 文将这 些材料 
整理， 归纳所 指出的 谬误， 并 加若干 己见， 给大家 参考。 

首先 指出， 张志 刚文章 （下称 「刚」 文） 的标 题数字 「62%」， 与 《港人 讲地》 
编辑 室文章 （下称 「讲」 文） 同源， 是 一个发 水或抽 水几近 一倍的 数字。 「抽 水」 
是指抽 了民调 响应者 当中大 批态度 完全中 立人士 的水， 把他 们捆绑 到梁特 的支持 
者 那边， 便成 功创制 出上述 那个发 水标题 数字。 过 程中， 还 擅自替 民调加 上一个 
不 适当的 概念， 对所 导致的 矛盾和 足令梁 特尴尬 的结论 却讳莫 如深。 

张 志刚的 「62%」 发水 63 近一倍 

在港大 钟氏民 调里， 特首 「民 望」 数字 的给定 范围是 0-100， 内含 101 个 整数， 
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发水： 渗 水发大 



50 分 居中。 访 问到的 998 个 回应者 当中， 有 383 个 给特首 打的分 数低于 50 分， 
280 个 50 分， 335 个高于 50 分。 钟 民调事 先给受 访对象 说明： 「0 分」 为 「绝 
对唔支 持」， 「50 分」 定义是 「一半 半」， 100 分则为 「绝 对支 持」。 

因此， 对 统计者 而言， 必 须严格 尊重那 280 个打 50 分者 的中立 态度， 既 不能把 
他 们摆到 383 个不 支持者 那边， 亦 不可将 他们与 335 个梁 特支持 者放在 一起； 但 
是， 「讲」 文捆绑 抽水好 自便， 把打 50 分 或以上 的访问 对象加 在一起 （「一 半半」 
+ 支持 ）， 一算: (280+335) /998 = 62%， 好 亮丽！ 

然后 张志刚 就用这 个数字 说事， 雄辩 地问： 这 个数字 「是 合格 还是不 合格？ 」 
这就有 趣了。 因为这 个算法 如果说 明特首 民望是 「严 重地合 格」， 那么， 我们同 
样可 以把那 280 个态度 中立打 50 分 的受访 者加到 「不支 持者」 那边 （「一 半半」 
+ 唔支持 ）， 算出 （280+383) /998 = 66%。 那不就 表示梁 特民望 应该是 「更 严重地 
不 合格」 了么？ 

矛盾兼 尴尬！ 正如 一篇网 文题目 所说： 「你玩 统计， 统计玩 你」。 【注 2】 
任何公 平的统 计人， 不会像 「讲」 文 那样， 抽那 些响应 「一 半半」 的态度 中立人 
士 的水， 而 只会用 335/998 = 34% 这个 数字， 代 表在原 始数据 里支持 梁特的 响应者 
比率。 这个 数字， 固然比 不上发 水几近 一倍的 「62%」， 与 不支持 梁特的 回应者 
比率 38^998 = 38% 相比， 也差 一截。 如此， 张志 刚更应 该雄辩 地问问 自己： 34% 
这个 数字， 「是 合格 还是不 合格？ 」 

为何 说事者 可如此 便给， 大抽 态度中 立人士 的水？ 因 为中间 做了几 近无缝 的概念 

转移。 

政治态 度中立 一 「合 格」 一 「支 持」 

大 家如果 留意， 当 可察觉 「 讲」、 「刚」 二文 其实歪 曲了该 次钟民 调里的 「50 分」 
的 定义， 把政治 态度上 的中立 （「一 半半」 ） 巧妙 地改成 「合 格」。 然而这 个民调 
里的 50 分， 并非 是一个 「合格 线」。 

「合 格」 的标 准人人 不同。 例如， 笔者当 年念的 大学， 合格线 因教授 而异； 念津 
贴 小学的 时候， 学校 的合格 分数是 60%; 中 学则是 40%， 入 读后， 老父不 满名校 
的标准 反而那 么低， 笔者却 认为好 得很， 因为 可减轻 功课做 不好给 老父指 骂时的 

「杀伤 力」。 

然而， 更重要 的是， 合格和 支持不 支持， 其实 没有必 然关系 —— 例如， 某 医学院 
专 科生以 40.1% 的分 数合格 毕业， 你支 持不支 持这位 仁兄当 你的心 脏手术 医生？ 



「 讲」、 「刚」 二 文先将 「50 分」 擅自 定义为 「合 格」 （与民 调对象 回答问 卷时的 
指定意 义不同 ）， 然后 再把这 个他们 引入的 「合 格」 概念 等同民 调里的 「支 持」， 
这 般偷换 概念之 后就可 静鸡鸡 进行上 述捆绑 抽水。 如此， 「刚」 文 就可大 剌剌地 
说： 「评 50 分以 上的比 率就是 62%， 比 49( 分） 以及 以下的 38%， 多 出一大 截。」 

(注意 ： 「 50 分 以上的 比率是 62% 」 起码 应该是 「 50 分或 以上」 罢？ 但 连这个 「 或 」 
字也省 掉了。 ） 如此 逐步深 入细致 地做群 众的思 想摆布 工作， 不是第 一次， 大概 
也不会 是最后 一次。 

事 实上， 港大民 研计划 已再三 声明， 「50 分」 与 「合 格」 完全 无关， 指的 是态度 
上的 中立。 当然， 可 以有另 外的民 调专讲 合格不 合格， 但这 个梁特 民望民 调本身 
不适 宜讲， 硬 要讲， 就 会出现 上面的 既矛盾 也让梁 特相当 尴尬的 结论。 这 个民调 
只研究 特首民 望的平 均分数 高低； 得出 一个平 均分数 之后， 合格 与否， 读 者可凭 
个人喜 好各自 解读。 大概有 些人， 就算 梁特民 望拿个 1 分平 均分， 也会认 为他是 
合 格的； 逻 辑上， 这没有 问题， 但如 果滥用 民调原 始数据 特别炮 制一个 「62%」 
来 说事， 就有 问题。 

剔除给 0 分的！ 保留给 100 分的！ 

所说何 事呢？ 原来， 「 讲」、 「刚」 二 文说， 既有 「62%」 这 个亮丽 数字， 而钟民 
调 最后竟 把梁特 的平均 民望评 分算为 47.5， 必是 因为钟 民调没 有把打 0 分 的那些 
「极端 分子」 —— 即 统计学 上说的 「离群 数据」 （outliers) —— 剔除。 于是， 他 

们就可 结论： 钟 民调不 科学。 这里 有三个 问题。 

首先， 如果要 剔除给 0 分者， 也应该 剔除给 100 分 者罢？ 但 张志刚 口中振 振有辞 
的那 个发水 「62%」， 却 隐蔽地 包含了 29 个 「100 分」； 这是 「打茅 波」。 

其次， 已经 有专家 算出， 把响 应分数 最高和 最低的 10% (含 所有 「0 分」 和 「100 
分」） 都剔 除后， 梁特 民望平 均值也 好不了 多少： 48.1 分， 救不 了他； 用 张志刚 
的 话说， 依然 「不合 格」。 如此， 大动干 戈为的 显然不 是两个 平均分 48.1 -47.5 = 
0.6 分 之差， 因为 「刚」 文对 此提都 不提。 那么， 要剔除 91 个 「0 分 极端分 子」， 

目的 何在？ 不外 起哄， 令不 谙统计 学的人 「觉 得」 钟民调 无理。 但 请继续 看无理 
的 是谁。 

第三， 响 应分数 值既限 在整数 0 与 100 之间， 而 0 与 100 分 在民调 里都有 清楚而 
具体 定义， 那么， 根本 就不应 剔除响 应值为 0 或 100 的那些 数据， 因为那 些数据 
已经不 能算是 「离 群数 据」， 而是民 调设计 者特别 指明、 更要 知道的 数据； 理论 
上， 0 分甚 至可能 是对象 响应中 的一个 「众 数」 （mode) 而 意义尤 其重要 【注 3】。 
事 实上， 在 该项民 调里， 给 0 分的 91 个 响应， 占 998 人 的几乎 10%， 相 当于给 



50 分的 280 个响 应人数 的三分 之一； 这 许多响 应者， 怎可 以看成 都是该 从统计 
数字里 「枪 毙」 掉 的呢？ 就看 未加权 的评分 分布， 我们 也可以 猜到， 这个 分布是 
双 众数的 （bimodal distribution), 两 个众数 分别为 280 分和 0 分， 因为的 确有很 

多 人对梁 特极之 不满； 若取消 了这部 分人的 数据， 那就 不是今 天的香 港了。 统计 
学 不应、 也不 允许那 样搞出 河蟹。 

由此 看出， 不 科学的 不是钟 民调， 而 正正是 《港人 讲地》 编辑 室和张 志刚。 
心术问 题之外 还有技 术问题 

「 讲」、 「刚」 二文， 还犯 了一个 技术性 错误： 「62%」 这个 数字， 是拿了 钟民调 
的原 始数据 做了小 手脚就 急不及 待用来 说事的 结果， 不知 道人家 有统计 学的章 
法， 就是对 原始数 据适当 加权， 之后才 能用以 作统计 运算和 分析。 这 里说的 「加 
权」 指 什么？ 

大家 知道， 民调 研究的 对象人 口总数 太多， 不 能全部 访问， 只能抽 样取板 

(sampling), 但每 一个随 机样板 中的个 体特征 分布如 年龄、 性 别等， 都 不能准 
确 反映总 人口中 的已知 分布， 此即 所谓的 「样 板误 差」； 如果 所调查 的民意 （如 
对 梁特的 态度） 与 年龄、 性别 等特征 有关， 样 板便需 加工， 而统计 学用的 标准加 
工 工序， 是一 个加权 工序。 笔者借 用近日 一篇网 上流传 很广、 署名 SweetSourPork 
(「咕 噜肉」 ） 的 《辅 仁网》 文章里 的具体 解释， 稍 作修改 如下： 

「如果 今次电 话访问 ，有 41.5% 嘅受 访者系 男性， 但系原 来香港 人口有 45.4% 
嘅人系 男性， 比受 访者入 面嘅男 性多， 咁 我哋就 要将样 板入面 嘅男性 嘅比重 
加 多啲， 平 衡番， 等 数据可 以代表 香港市 民。」 【注 4】 

不做这 个加权 工序， 样板误 差可令 民调的 统计分 析毫无 意义。 这是民 调统计 ABC。 
「咕 噜肉」 于 是用了 钟民调 的原始 数据并 作适当 加权， 重 新再算 一遍， 证 明钟民 

调算 出的梁 特评分 平均数 47.5 没 有错， 错的 是这里 又犯了 基本统 计方法 大漏的 
《港人 讲地》 和张 志刚： 那个已 经包含 抽水、 概念僭 建兼打 茅波的 「62%」， 也 

是未 经加权 处理的 （虽然 因为前 三个犯 规动作 太大太 离谱， 这第四 个谬误 相对而 

言已显 得不那 么重要 ）。 

大家 看看， 一个 饱含四 个大错 漏那么 丰富的 「数 字」， 尊贵的 行会成 员视为 至宝， 
雄辩 滔滔用 来攻击 对准钟 民调。 那不 是很可 笑吗？ 这 种学养 的人， 放在本 朝特府 
内外 「智 库」 里打 棍子很 称职， 安插在 行会， 则说到 底有损 其他大 部分成 员的面 
子和 心理。 港大 民意研 究计划 成立于 1991 年， 二十多 年来， 钟民 调的学 术功架 
已 经十分 娴熟， 任 凭当权 派怎样 抹黑， 亦不 能把他 撼倒。 最近这 次围剿 攻势， 网 
民当 中的专 家见招 拆招， 已 经代为 瓦解。 正如笔 者早前 提到， 钟民 调完全 有资格 



成为香 港又一 尊屹立 不倒的 图腾。 



【注 1】 李家杰 言论见 http:Vzh.wikipedia.org/wiki/ 李 家杰。 《港人 讲地》 编辑 室文见 
http://speakout.hk/index.php/^013-ll 

-04-09-33-03^013-12-21-08-43-26/1424-2014-03-14-10-38-16。 张志 刚文见 
http://news.mingpao.com/20140318/msa.htm 。 

【注 2】 见 「陈 电锯」 的文章 http:〃www.chainsawriot.com/archives/9292 ; 此文用 另一统 计加权 
方法 （iterative sample bootstrapping), 算 出梁特 的平均 评分为 46.3， 比钟 民调的 47.5 稍低。 

【注 3】 关 于离群 数据， 网文 〈勿 因虫 废言〉 有 很好的 讨论： 

http://aloneinthefart.blogspot.co.nz/^014yD3/blog-post 15.html； 作者 指出， 一般 而言， 问卷 响应若 

不 设有效 头尾限 （例如 100 与 0) 而 是可以 正负很 大数以 至无限 的话， 离群 数据才 有明显 的潜在 

不良 作用， 应该 剔除。 文章分 析头头 是道， 明显很 在行； 其上 篇更值 得看。 

【注 4】 「咕 噜肉」 文章 〈港 大民 研特首 评分系 「被 拉高」 还是 「拉 低」 ？ 〉， 用典 型香港 话写， 
解释 统计过 程深入 浅出， 见 http:〃www.vjmedia.com.hk/articles々014yQ3/15/66322 。 不过， 文章的 

加权评 分分布 图所表 达的概 念不对 一一 应该是 加权在 人而不 是加权 在分， 虽 然算出 的总平 均分一 
样是 对的。 



罗耕： 低水平 的批评 64 

昨文看 过钟庭 耀的特 首评分 调查， 给 50 分 （或） 以 下终较 50 分 （或） 以 上多。 

港大 民意研 究計劃 2014 年 3 月 3-6 日特 首評分 镇 
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说很 多极端 分子给 0 分吗？ 一样有 不少给 100 分。 难道全 都要剔 走吗？ 观乎 分布， 
可能 根本有 些人想 给超过 100 分， 甚至 有更多 人想给 负分， 只 是限于 0-100 无可 
奈何。 如此^13(^^的化^(^31， 用众数 （mode) 表达是 无甚意 思的， 因这很 

可能是 的正态 分布。 假使 调查的 50 分水 岭改为 0 而两端 不限， 大概 

未必 会见到 这三峰 现象。 

在平均 （mea n )、 中位 （median) 及众 数三种 中央趋 势描述 而言， 若 是量化 数据， 
最 可取是 平均。 当平均 有机会 被极端 数字大 幅拉高 / 低时， 才用 中位， 譬 如入息 
分布。 然而， 特首评 分限于 0-100， 无极端 数字， 故 不宜用 中位。 只有 interior 
multi-modal 下， 以 众数表 达多个 中央趋 势才有 意思。 至 于张志 刚指的 
inter-quartile range, 更不 必了。 

数据是 否正态 分布， 其 实可以 jarque-Bera normality test 测试， 详 情可上 维基看 
看。 用 原始数 据不难 算出， 」B statistic 值达 386， 显然 呈正态 分布。 

批 评钟庭 耀的， 看 来要重 新上基 本统计 课了。 
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麦 国华： 民调 科学与 艺术' 



回归十 多年， 特首民 望时常 被传媒 打造成 各具含 义的大 标题放 在显眼 位置， 制造 
话题。 如 果说传 媒为了 吸引眼 球而以 文字渲 染民调 结果尚 可理解 的话， 那 么一间 
理应中 立的学 术机构 若真的 选择性 公布某 些调查 数据， 发布 引导性 结论， 就实在 
令 人为学 术自由 担心。 

近日， 港 大民意 研究计 划遭揭 发只公 开有关 特首支 持度的 「平均 分」， 而 隐瞒原 
来 有六成 市民认 为特首 「及 格」 的 事实， 备受 批评与 质疑。 然而， 更让人 为之瞠 

目的 是民研 计划负 责人的 反驳。 他辩称 「从来 不会用 50 分 等于及 格去解 释」， 并 
称 50 分只 是代表 「中 间意 见」。 

支持 程度本 就是一 种相当 感官化 的心理 状态， 将 其量化 为具体 数字， 难免 存在个 
人 理解的 因素。 问卷设 计者确 可自行 诠释不 同数字 含义， 此问 卷亦将 50 分定义 
为 「一半 半」， 然 该负责 人过往 曾解释 「50 分 以下等 如不及 格」， 又何能 自圆其 
说。 加 上某些 自诩为 香港良 心的媒 体也常 以此为 标准， 疾 呼特首 民望不 及格， 大 
部分市 民早被 引导视 50 分为特 首民望 「及 格」 的 界线。 

面对 质疑， 该些 媒体的 反应更 是令人 心痛香 港社会 理智的 流失。 有媒体 强调， 揭 
出 特首有 61% 支 持的是 「梁 粉」， 暗示 背后存 在政治 目的。 一顶 「梁 粉」 帽子就 
可 否定一 切证据 事实。 如 此因人 废言， 和文革 时期不 问观点 证据， 单凭背 景立场 
就 批斗厮 杀有何 不同？ 

很多 平日鼓 吹公义 平等的 「道德 卫士」 们， 攻 击政府 时高高 举起， 现在面 对涉嫌 
违反 公义的 事情却 又轻轻 放低， 彷佛 事情只 是桥下 流水， 其双 重标准 也应予 诟病。 
倘若被 指民调 欠缺公 允的是 中央政 策组或 建制派 的民研 机构， 恐怕 早已尸 横遍野 
了。 只 感叹， 民 调可以 选择地 公平， 社 会公义 也可以 选择地 分配。 

捍卫学 术自由 

捍 卫学术 自由， 政府、 市民、 政 党和学 术界都 有不可 推卸的 责任。 民调的 目的在 
于通 过对大 量样本 的问卷 调查来 客观、 精确地 反映社 会舆论 或民意 动向。 民调结 
果会为 政府所 参考， 从某 种程度 上可影 响政府 施政、 市民 心态及 社会大 环境。 因 
此， 市民有 权利要 求民研 计划本 着严谨 的学术 研究态 度进行 调查， 全面客 观地公 
布 结果， 让公 道回归 人心。 遗憾 的是， 统计 是一门 科学， 对统计 数字的 诠释， 却 
是一门 艺术。 
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公说公 有道， 婆说婆 有理？ 

「梁 粉」 批评 如下： 

依 据港大 最新的 民调， 以 100 分为 满分， 特 首仅获 47.5 平 均分， 当然就 被评为 
不合 格了。 然而， 只要打 开原始 资料， 就 会发现 998 个评分 者中， 原来 有多达 
615 人、 即逾 6 成 人均给 予特首 50 或以上 的合格 分数， 其 中更有 29 人给予 100 
分； 仅有 383 人给予 50 以下的 评分。 那么， 为何 特首的 评分又 会不合 格呢？ 最 
大 的问题 在于有 91 人 个受访 者给予 0 分， 就是这 些极端 评分， 令 特首的 平均分 
大幅度 拉低。 

「主 场新闻 网站」 及 香港大 学民意 研究计 划研究 经理李 伟健则 反驳： 
评 论指有 91 个 0 分样本 「拉 低」 平 均分， 没 有提到 29 个 100 分样本 同时会 「拉 
高」 平 均分。 港大 民意计 划研究 经理李 伟健向 《主场 新闻》 解释， 民望调 查询问 
受 访者给 予官员 0 分至 100 分的 评分， 相 信受访 者诚实 回答， 无论 样本是 0 分或 
是 100 分， 都 应纳入 计算， 除非是 101 分， 在数值 范围之 外才会 剔走。 

李伟健 强调， 历来 民望调 查同样 沿用这 方法， 公布按 评分计 算算术 平均值 
(Arithmetic Mean), 「没有 筛走特 别低、 特别 高的评 分。」 

开门 见山。 我认为 「梁 粉」 的批 评有其 道理， 但 其为己 方所作 辩解， 一样有 问题。 
另一 边厢， 「港大 民研」 的 统计方 法也有 毛病。 

Lies, damned lies, and 梁粉' s statistics 

统计数 字不会 说谎， 它 有的只 是统计 偏差。 说 谎的， 是 运用它 的人。 "Lies, damned 
lies, and statistics" 这句 名言， 就 是用来 讽刺那 些蓄意 运用统 计数字 来制造 假像的 

人。 前述 「梁 粉」 的 批评， 正好 拿来作 「统 计语言 伪术」 的最佳 范例。 

从 「特 首民望 调查」 所 得到的 998 个有效 评分， 平 均分为 47.4 (「港 大 民研」 
公布 数字为 47.5， 略有 不同， 这是 因为他 们按受 访者的 统计特 征作加 权平均 ）， 
低于 50， 但 实际上 998 个分数 当中， 有 615 个为 50 分 或以上 ...... 至此， 梁粉 

都没有 说错。 然而， 他 们没说 的是： 

998 个分数 当中， 也有 663 个为 50 分或 以下。 

感觉混 淆吗？ 或 者这样 说吧， 998 个分数 当中， 有 383 个低于 50 分， 280 个 
等于 50 分， 335 个高于 50 分。 分数 的分布 如下： 



Histogram of df$CE_rating 



df$CE 一 rating 

从 0 到 100， 共 有一百 零一个 整数， 而 50 正好 居中。 梁粉 试图以 「50 分或以 
上」 这个标 准来描 绘一个 梁振英 有超过 六成人 支持的 景象， 可是据 他们的 逻辑， 
我们 同样可 以说， 以 「50 分或 以下」 这 个标准 来判断 的话， 有超过 六成人 （而 
且这个 「超过 六成」 的人 数比起 梁粉的 「超过 六成」 更多） 反对梁 振英！ 

我不 明白一 众梁粉 何以如 此介怀 47.5 这个只 略低于 50 的 数字。 若是 选举的 
话， 两三 个百分 点也许 是胜负 关键， 可 是像印 象分这 种虽非 玄学， 却也 「不 算精 
密 科学」 的 东西， 47.5 和 50， 实 在没有 分别。 换了 我是梁 振英， 看 到如此 数字， 

高兴 还来不 及呢。 

离 群值与 平均数 

梁粉 指出， 998 个分数 当中， 有 91 个是 0 分， 这 些极端 评分拉 低了整 体的平 
均数。 这是正 确的。 「主 场」 却反驳 梁粉， 说他们 没提及 样本当 中亦有 29 个 100 
分， 会 有拉高 平均分 的相反 效果， 也同样 正确， 亦再 一次显 示梁粉 玩弄输 打赢要 
的统 计语言 伪术。 

然而， 撇除梁 粉的拙 劣技俩 不谈， 若样本 中可能 有不少 「离 群值」 （outliers) 的 

话， 到底 我们应 该如何 估计统 计母体 群的平 均数？ 

港大民 研的李 伟健指 「无论 样本是 0 分或是 100 分， 都应 纳入计 算」。 就 一般统 
计调查 来说， 这 是过时 的做法 （但 此处 有一个 catch, 要押后 谈）。 现代 统计学 
认为 「稳 阵」 （robust) 的 做法， 本网志 之前的 书评其 实已经 提过， 就是利 用截尾 
平均 （trimmed mean), 也就是 先截去 最高和 最低的 5-10% 数据， 然后才 计算平 

均数。 

可是 我们几 乎可以 断言， 在 「特 首民望 调查」 中， 无论 用普通 的算术 平均， 抑或 
用截尾 平均， 都不 会有大 分别。 原因 是一般 来说， 离群值 最有杀 伤力的 情况， 是 
母体 群数字 本身为 「无 界」 （unbounded) 的 时候。 是 项调查 当中， 有效的 评分本 
身有界 （只可 介乎零 至一百 ）， 离 群值的 影响通 常不会 太坏， 故此 梁粉的 批评， 
抓 不到统 计学的 重点。 
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实 际上， 若 截去今 次样本 当中， 高低 各一成 的数据 的话， 得出来 （未经 加权） 的 

截尾 平均为 48.1， 与样本 平均数 47.4 相去 不远。 



尺度 不同， 分 数如何 换算？ 

这倒 不是说 「特 首民望 调查」 无 问题。 印 象中， 港大民 研所做 的民意 调查， 大部 
份 （例 如立法 会选举 的选前 调查和 exit polls) 都很 扎实。 然 而此项 「特 首民望 
调 查」， 却非常 碍眼。 我 很想问 钟庭耀 一句： How on earth is this rating meaningful? 

单单叫 受访者 为梁振 英打个 分数， 已 经很有 问题。 问 卷只提 过零分 （「绝 对唔支 
持」 ）、 五十分 （「一 半半」 ） 与 一百分 （「绝 对支 持」） 的 意义， 中间 的尺度 （scale), 
人人 却不同 细分。 你我 各给六 十分， 意 思未必 相同。 你的分 数如何 换算成 我的， 
完全木 宰羊。 现 时港大 民研的 做法， 实际 上假设 了所有 人的评 分尺度 均一。 由此 
引 起的模 型风险 （model risk), 无法 评估。 举个 例说， 若你 看到梁 振英的 「民望 
指数」 比上 月高， 你可 能以为 他真的 愈来愈 受市民 欢迎， 但 实情可 能是他 的民望 
无变， 只是今 个月的 受访者 的评分 尺度较 宽松， 对无 甚特别 感觉的 官员， 也倾向 
打一 个高分 而已。 

就 算是奥 运体操 项目， 评分 有较多 稍为客 观的细 项凭依 （动作 要求、 难度、 时限 
等等 ）， 仍不 时惹人 争议， 各 人对特 首表现 的评分 尺度， 又怎可 能大致 一样？ 

不知 尺度， 何论 变化？ 

好了， 就假 设香港 有一个 平均的 评分尺 度吧。 套用经 济语言 来说， 就当人 人都用 
一 个一致 「市 场评分 尺度」 好了， 但 为何我 们可以 计算平 均分？ 平 均数并 不一定 
是有意 义的。 一 半人给 零分， 另一 半给一 百分， 借 用时下 流行语 来说， 是 社会撕 
裂的 状况； 所有人 都打五 十分， 却更 似人人 认命。 两种情 况截然 不同， 平 均分都 
是五 十分， 那 么五十 分究竟 是甚么 意思？ 

以 上例子 当然太 极端， 极端 到与雷 鼎鸣对 坚尼系 数的批 评如出 一辙。 假若 港大民 
研 只是拿 这个平 均分来 判断粗 略民情 的话， 上一段 的批评 是不适 用的。 问 题是， 
港 大民研 对待这 个平均 数时， 彷佛其 精密数 值或它 几个百 分点的 变化， 有 甚么微 
言大义 似的。 然而， 即 使香港 有一个 「市场 评分尺 度」， 我 们仍不 知道这 个尺度 
是甚么 样子。 同 样是跌 十分， 从一百 跌至九 十分， 是 否跟六 十跌至 五十， 或十跌 
至 零同样 大镬？ 木 宰羊。 五 十分所 代表的 「一半 半」， 和 「及 格」 是 同样意 思吗？ 
木 宰羊。 不及格 的话， 甚么 分数才 算民怨 沸腾， 很想 梁振英 辞职？ 木 宰羊。 

不知背 后的评 分尺度 的话， 再精密 的数字 都是没 用的。 弄得 好像很 精密， 反而令 
人误 以为该 数字很 科学， 其 细微变 化很有 意义。 



离 群值真 是离群 值吗？ 

前面 说过， 以普通 的算术 平均来 估计母 体群平 均数， 乃过时 做法。 讽刺 的是： 

• 对 「特 首民望 调查」 来说， 由于整 把由零 至一百 分的量 尺中， 只 有零、 五 
十 及一百 有清晰 意义， 所以 这三个 分数， 比其 他分数 可靠。 

• 故此， 吊 诡地， 0 和 100 两个离 群值， 反 而不应 剔除。 

• 结 果梁粉 针对离 群值的 批评， 意 外地不 适用。 

• 若硬要 计算平 均数， 普通 的算术 平均， 此处 亦反而 比截尾 平均更 恰当。 
然 而这不 表示港 大民研 的做法 正确。 正正 因为他 们采用 了语意 不明的 尺度， 才造 
成这许 多奇怪 状况。 

结 语一： less is more 

如 前述， 港 大民研 的民意 调查， 一 般都很 扎实， 但这项 「特首 民望调 查」， 用粤 
语来说 的话， 真系 「畀 位人 插」。 "Less is more" 这句说 话听来 陈套， 但此处 适用。 
奉劝 Robert Chung, 还 是干脆 将问卷 问题改 成简简 单单的 「你 想唔 想梁振 英继续 

执政」 之类 好了， 不要 再搞那 些懒细 致的评 分吧。 

结 语二： 废话 去死， 自 由万岁 

最 后且谈 文字， 不谈 统计。 梁 粉谓： 

港大民 意研究 计划的 民调早 阵子引 起连串 质疑， 未知是 否有见 及此， 今次 港大再 
度公布 特首评 分时， 民 意网站 已出现 所谓的 「原 始数 据」， 虽然相 关档案 的格式 
要以 特定软 件才能 打幵， 但内 里所刊 载的正 正是评 分分布 数字。 
这 不是废 话吗？ 有甚么 档案是 任何软 件都可 以打开 的呢？ 何 况所谓 「特定 软件」 
和文件 格式， 也 不过是 统计佬 惯用的 SPSS 与它的 sav 格 式吧。 不想付 钞的朋 
友， 可用免 费的自 由软件 R 打 开有关 档案。 

相 关网页 

• The R project for statistical computing 

• 2014 年 3 月 11 日 新闻 公报 ; 香 港大学 民意研 究计划 

• 下载原 始数据 （SPSS 的 sav 格式 ）： 2014 年 3 月 11 日公 布之特 首评分 
• 民情 指数方 法说明 （Pdf); 香 港大学 民意研 究计划 

伸 延阅读 

• 电锯， 你玩 统计， 统计 玩你 : 「问 题根本 不在于 0 和 100 等等 outliers ， 

而是 占人口 比 重较多 的组 群对梁 振英评 分较低 。 」 



请钟庭 耀回应 请关焯 照澄清 / 文： 张志刚 



(明报 ） 2014 年 03 月 25 日 

由前周 钟庭耀 公布了 特首评 分的原 始数据 之后， 就引起 广泛的 分析和 讨论， 这其 
实是 好事。 学术 机构的 行为， 理应面 对公众 批评， 不要随 便就以 「抹 黑」 和 「打 
压」 视之。 而关焯 照先生 等也写 了一篇 专文， 提 出不同 意见， 个人 在此尝 试把事 
情详细 再分析 一遍。 关先生 和其他 有兴趣 的人士 可以详 细阅读 思考， 往后 可以再 
作 交流或 者当面 讨论。 

整件事 件似是 复杂， 但 如作有 条理的 梳理， 其 实不难 掌握。 关键是 钟庭耀 的特首 
评分， 有没有 合格的 概念和 应用。 此关键 一解， 往后就 是大路 一条。 

钟 庭耀在 3 月 19 日接受 《信 报》 访问， 指出 「50 分是中 位数， 不 能演绎 成正向 
或负向 数字， 从来 不能说 50 分合 格」。 

钟 庭耀的 解释， 涉 及两个 问题， 一 是这种 评分， 有 没有合 格纓尸 X 格的 概念。 二 
是如 果有， 又应该 几多分 合格。 

钟 庭耀的 评分， 其实做 了很长 历史， 太远的 不说， 就 从回归 谈起， 也有 17 年。 
这 17 年来， 媒 体从来 都以合 格纓尸 X 格的概 念来报 道特首 评分， 而 且都以 50 
分为 合格。 香港媒 体事业 发达， 每 次数字 一出， 电视、 电台、 报章 都踊跃 报道， 
这合 格纓尸 X 格 词语， 出 现起码 100 次。 钟 庭耀每 月起码 做一次 调查， 1 年 12 
次， 加起 来就过 千次。 17 年来， 少 说也报 了一两 万次。 如 果钟庭 耀认为 这个调 
查根本 没有合 格纓尸 X 格的 概念， 那 在过去 1 万 多次的 报道， 钟庭 耀为什 么不挺 
身 而出、 拨乱 反正？ 就 在前周 公布原 始数据 之后， 得出评 50 分或 以上有 六成二 
人的 结果， 钟庭耀 才急忙 表态， 认 为没有 合格不 合格， 又或者 50 分不能 视为合 
格 之说。 

曾 被引述 50 分为及 格水平 

香港的 记者、 编辑， 多 是有识 之士， 他们 一个错 不奇， 个个都 出错？ 他们视 50 
分为 合格， 固然是 凭自己 的固有 认知， 而 钟庭耀 自己也 有不可 推卸的 责任。 因为 
他仙人 指路， 他 本人就 是如此 演绎。 本人 的一位 同事用 了一个 下午的 时间， 在慧 
科电子 剪报搜 寻过去 10 多年 的相关 报道， 找到以 下这些 材料。 请 记着， 这些报 
道 是直接 经访问 引述或 直述钟 庭耀的 分析， 而不 是媒体 自己的 报道。 如果 只计媒 
体 报道， 那 是成千 上万， 不必在 慧科电 子剪报 搜寻。 



《苹果 日报》 2010 年 8 月 11 日 ： 「民意 研究计 划总监 钟庭耀 分析， 按曾 荫权的 

民 望表现 而论， 他的 民望属 『表 现失 败』。 虽然他 的评分 有轻微 上升， 仍 可以维 
持在 略高于 50 分 的及格 水平。 」 

《头条 日报》 2010 年 7 月 28 日 ： 「该 研究计 划总监 钟庭耀 表示， 虽然曾 荫权评 
分脱离 肥佬行 列。」 （注： 评分为 50.3 分） 

《星岛 日报》 2004 年 10 月 13 日 ： 「钟 庭耀 认为他 （杨 永强） 的 支持度 保持稳 
定， 比其历 史低位 39.4 分高出 很多， 但仍 未达到 50 分的 及格水 平。」 

《星岛 日报》 2004 年 9 月 29 日 ： 「钟 庭耀 分析， 调 查结果 显示董 建华的 民望评 
分两 年来首 次重上 50 分 水平。 」 

《信 报》 2003 年 9 月 10 日 ： 「钟庭 耀指出 …… 孙明扬 …… 杨永强 …… 林瑞麟 …… 

马 时亨全 数低于 50 分 的及格 水平。 」 

《明 报》 2003 年 8 月 13 日 ： 「钟 庭耀 分析： 『 …… 余下 12 个问 责官员 中只有 4 

个不及 50 分， 算是初 步走出 管治危 机。』 」 

《明 报》 2003 年 1 月 29 日 ： 「钟 庭耀 指出， 特 首评分 自去年 8 月 起已连 续半年 
处 于不及 格水平 …… 连续半 年处于 50 分以 下。」 

另 外慧科 电子剪 报显示 2003 年 9 月 24 日和 2004 年 4 月 14 日的 《苹 果日 报》， 
在为特 首和主 要官员 评分制 表时， 分 别出现 「注： 评分以 50 分 及格」 （2003 年 9 
月 24 日）、 「注： 评分由 0 至 100 分， 50 分 及格」 （2004 年 4 月 14 日） 等 字样， 

并且 都写明 「数 据源： 港大 民意网 站」。 

钟庭耀 1997 年 7 月 出版的 《民意 快讯》 第 11 期， 在 总结港 督彭定 康的支 持度评 
分时 表示： 「整体 而言， 彭定康 所得的 分数一 直能够 维持在 50 分的合 格分数 以上， 
反映 彭定康 在市民 心目中 的形象 尚算不 俗。」 据 港大民 意网站 介绍， 无论 是对回 
归前的 港督， 还是回 归后的 特首， 支持度 评分的 提问方 式是一 样的。 

任何稍 懂中文 的人， 也 可以从 上述的 引述， 清楚 理解， 这套 评分方 法是： 0 至 
100 分， 50 分为 合格。 讲 了千次 万次， 钟庭 耀自己 也是如 是说。 今 日被翻 出有六 
成二 的人给 了梁振 英先生 合格的 分数， 就 走出来 完全推 翻过去 17 年的 定义， 作 
为 香港大 学的民 意调查 机构， 钟庭耀 是不是 要正式 响应？ 



看完 以上的 引述， 相信已 经可以 解答了 关焯照 先生的 问题， 但为 求详细 交代， 以 



下 再作进 一步的 分析。 关 先生等 3 人 是懂得 统计的 人士， 请 3 位首 先思考 并回答 
一个 问题： 钟 庭耀的 评分， 是归类 为定序 （Ordinal) 还 是定距 （Interval) 的 问题？ 
所谓 定序， 通常是 3 项式 选择， 响应 者独立 挑选， 只能每 选项独 立计算 频率， 选 
项之 间也不 存在空 间可供 选择。 中大在 2012 年 初对候 任行政 长官支 持度作 调查， 
就 提供了 3 个 选项： 不 支持、 普通纓 @ 半半、 支持， 这 3 个 就是回 应者可 选的答 
案。 在计算 机运算 时是用 代码， 但运算 后出来 的答案 结果仍 然是不 支持、 普通纓 
@ 半半、 支持。 如果 是定序 （Ordinal) 的 问题， 我当 然不能 把一半 半的归 类为支 
持， 这 是不能 接受的 错误， 这种 方法也 同时不 能相互 运算， 所以不 会有平 均分这 
结果。 

看 钟庭耀 问卷的 问题， 是典型 的定距 （Interval) 的 问题。 0 至 100 是 连续， 不是 

独立 方块。 数字可 以相互 运算， 所 以有平 均分的 出现。 如果关 先生用 SPSS 查看 
钟庭耀 的原始 数据， 可 以发现 答案只 是出现 0 至 100 分， 从来 没有不 支持、 一半 
半、 支持的 字样。 这 3 组 字不是 答案， 而只 是用来 向受访 者解释 0 至 100 分的方 
向和 意义。 这个 所谓一 半半， 在统计 学上， 和上 述中大 那个一 半半， 两者 完全不 
同 意义。 在定序 （Ordinal) 里， 一半半 是独立 成章， 本 身就是 答案。 但 在定距 
(Interval) 中， 50 分就是 50 分。 而一 般人对 50 分 是合格 分的印 象已是 根深柢 
固， 早有 定论。 再加上 媒体的 报道， 以及钟 庭耀自 己也不 断解读 50 分为合 格分， 
所以 本人以 50 分为 合格分 起点， 向上计 算得出 62% 之数， 又有何 问题？ 如果真 
的 要重回 一半半 的本来 意义， 那 就只能 用回中 大那个 问题， 一半 半独立 成章。 但 
如果用 3 选项 而不打 分数， 又无 法制造 「民望 肥佬」 的 形象！ 

「平分 春色」 欠基础 

此外， 关先 生也提 出把给 50 分的频 数一分 为二， 一 半拨入 支持， 一 半拨入 反对， 
平分 春色。 

关先 生这种 做法， 是完 全混乱 了取态 上的一 半半， 和人数 上的一 半半。 真 的要知 
道给一 半半的 响应者 的最后 取态， 就只能 在访问 中再追 问一条 问题： 「如 果没有 
一半半 可选， 那是 会投入 支持， 还 是投入 反对？ 」 另有一 可能就 是弃权 不选。 转 
投的 比例， 根 本无从 得知， 可 能是八 对二， 也可 能是三 对七， 我们 凭什么 基础去 
假设 五成对 五成？ 推 论可以 接受， 但总要 有一些 基础， 例如 参考其 他两分 法民调 
的 结果， 而不 可以随 意一分 为二， 这点希 望关先 生可以 澄清。 归根 究柢， 我们必 
须 清楚评 分本身 就有合 格纓尸 X 格的 概念。 而 且一定 有一个 划分点 （cut-off 
point), 而没 有中间 形态。 合格就 合格， 不合 格就不 合格， 刚刚合 格的下 一个分 
数 就是不 合格， 就 是这么 简单。 

后记： 默书拿 50 分的 儿子问 妈妈： 「妈 妈， 我合 格定唔 合格？ 如果 50 分 不算是 
合格， 由 51 分 才算， 那 50 分又算 什么？ 又是 合格， 又是不 合格？ 不 能算是 合格， 



又不能 算是不 合格？ 」 几经 折腾， 妈 妈最后 无奈叫 儿子： 「你 去问钟 sir ！」 这时， 
妹 妹跑过 来告诉 妈妈： 「我默 书也是 50 分， 合格 还是不 合格？ 」 妈 妈喜形 于色回 
答： 「你 哋一个 合格， 一 个不合 格。」 （文 章仅代 表个人 立场） 



〈潮池 Blog〉 画出 肠民调 之子矛 子盾计 

不胜 其烦， 有关特 首民望 调查的 争论， 无奈 继续。 

港大 民意研 究计划 负责人 钟庭耀 澄清， 50 分在 特首评 分中， 在 问卷问 题上， 定 
义为 「一半 半」， 统计 学上属 「中间 数」， 不应视 50 分为 「合 格」 或 「不 合格」 （详 
见 〈 画出 肠民调 之一池 浑水 〉 )， 张 志刚在 《明 报》 一文 〈 请 钟庭耀 回应， 请关 
焯照澄 清 〉， 试 图以子 之矛， 攻子 之盾， 谓多 年来， 报章最 少九次 引述钟 庭耀形 
容 「50 分为 及格水 平」， 以 证钟庭 耀自打 嘴巴。 

实情如 何呢？ 

因为 要准备 是日香 港电台 《自由 风自由 ph 0ne 》 节目， 笔者用 「慧 科搜 索」， 复 
核了该 文九个 试图指 控钟庭 耀自打 嘴巴的 「例 证」， 功课 已做， 乐 意公诸 同好。 

文 字的确 存在， 不过 …… 

(如 果大 家觉得 好烦， 请 跳过以 下二十 三段， 从尾 六段开 始看总 结就可 以了。 ） 
(以 下九 「例 证」 引 自张的 文章） 

「例证 一」: 《苹果 日报》 2010 年 8 月 11 日： 「民意 研究计 划总监 钟庭耀 分析， 

按 曾荫权 的民 望表现 而论， 他的 民望属 『表 现失 败』。 虽然他 的评分 有轻微 上升， 
仍可以 维持在 略高于 50 分的 及格水 平。」 

评： 当天 共有六 份报章 有引述 钟庭耀 分析， 只有 《苹果 日报》 提 到他说 「仍 可以 
维持在 略高于 50 分的 及格水 平」。 1. 有可能 是记者 引述不 精准， 也 有可能 是钟庭 
耀这 样说。 2. 按前文 后理， 「仍 可以 维持在 略高于 50 分 的及格 水平」 有 歧义， 可 
诠释为 「50 分」 是及格 水平或 「略 高于 50 分」 是及格 水平。 

「例证 二」: 《头条 日报》 2010 年 7 月 28 日： 「该 研究计 划总监 钟庭耀 表示， 虽 
然曾 荫权评 分脱离 肥佬行 列。」 （注: 评分为 503 分) 

评： 「脱离 肥佬行 列」， 如何 诠释为 「50 分 为及格 水平」 ？ 

「例 证三」 ： 《星岛 日报》 2004 年 10 月 13 日 ： 「钟 庭耀 认为他 (杨 永强) 的 



支持 度保持 稳定， 比其历 史低位 39.4 分高出 很多， 但仍 未达到 50 分的 及格水 平。」 

if: 当天 共有八 份报章 有引述 钟庭耀 分析， 只有 《星岛 日报》 引述钟 庭耀就 样说。 
有可能 是记者 引述不 精准， 也 有可能 是钟确 实这样 说过， 难 证实。 中文大 学的同 
类调 查以五 十分为 「及 格」， 有 可能令 少部分 记者也 诠释港 大民研 调查的 五十分 
为 「及 格」。 

「例证 四」: 《星岛 日报》 2004 年 9 月 29 日： 「钟 庭耀 分析， 调查 结果显 示董建 
华 的民望 评分两 年来首 次重上 50 分 水平。 」 

评： 当天 共有十 份报章 有引述 钟庭耀 分析， 都 有类似 字眼， 但 「重上 50 分水 平」， 
不可能 解读为 「50 分为 及格」 的 意思。 正 如评分 「重上 60 分水 平」， 不 可能解 
读为 「60 分为及 格」。 

「例证 五」: 《 信报》 2003 年 9 月 10 日： 「钟 庭耀 指出. ― 孙明扬 ...... 杨 永强. ― 

林瑞麟 …… 马 时亨 全 数低于 50 分的 及格水 平。」 

评： 上段 引述有 很多省 略号， 原 文是这 样的： 

「钟 庭耀 指出， 巿 民对财 政司司 长唐英 年及保 安局局 长李少 光的评 价相当 不俗， 
可见 人事更 替似乎 可以为 政府带 来一点 好处。 不过， 接替唐 英年出 任工商 及科技 
局局长 的曾俊 华由于 市民认 知率不 足三成 而不获 排名。 

房屋 及规划 地政局 局长孙 明扬、 卫生 福利及 食物局 局长杨 永强、 政 制事务 局局长 
林瑞麟 和财经 事务局 局长马 时亨全 数低于 五十分 的及格 水平， 以林 瑞麟及 马时亨 
最 低分， 分 别有四 十三分 及四十 二点九 分。」 

正 常新闻 写法， 很明显 最后一 段并非 引述钟 庭耀， 「五 十分 的及格 水平」 属记者 
自己的 诠释。 「例 证五」 的 省略号 省得太 多了。 把 两段文 字砌埋 一齐， 改 变了意 
思， 这就叫 「断 章取 义」。 

「例证 六」: 《明 报》 2003 年 8 月 13 日： 「钟 庭耀 分析: 『. ― 余下 12 个 问责官 

员 中只有 4 个不及 50 分， 算是初 步走出 管治危 机。』 」 

评： 按当 时诠释 的前文 后理， 钟庭耀 一直以 45 分为 「信 任危机 线」， 故有 此说。 
而 「不及 50 分」 之 讲法， 亦 不能视 「50 分为 及格水 平」。 

「例证 七」: 《明 报》 2003 年 1 月 29 日： 「钟 庭耀 指出， 特 首评分 自去年 8 月起 



已 连续半 年处于 不及格 水平. ―.. 连续半 年处于 50 分以 下。」 



评： 这是 较离谱 的一个 引述， 翻查 原文， 上述引 文的省 略号， 省了三 大段。 原文 
第 一段是 「「港 大民意 网站」 发现， 特首董 建华的 民望， 由 1 月中的 47.3 分跌至 
1 月底的 45.2 分， 下滑 2.1 分 (若综 合其他 数据， 1 月平 均分为 46.3 分， 见图 )， 

再 见历史 新低。 民意 研究计 划主任 钟庭耀 指出， 特 首评分 自去年 8 月起已 连续半 
年处于 不及格 水平， 反映 政府有 管治危 机。」 

然 后隔了 三段， 才是 「民意 研究计 划主任 钟庭耀 认为， 特 首民望 自去年 8 月起， 
连续半 年处于 50 分 以下， 并屡创 新低， 情况 前所未 有。」 

而且， 按钟的 说法， 50 分 以下， 属不及 格水平 (50 分为一 半半， 50 分以 上为及 

格)， 此 文与钟 的一贯 讲法无 矛盾。 如 此拼凑 证据， 制造 错觉， 唉。 

「例证 八」： 另 外慧科 电子剪 报显示 2003 年 9 月 24 日和 2004 年 4 月 14 日的 《苹 
果日 报》， 在为特 首和主 要官员 评分制 表时， 分 别出现 「注: 评分以 50 分 及格」 
(2003 年 9 月 24 日）、 「 注: 评分由 0 至 100 分， 50 分 及格」 (2004 年 4 月 14 

日) 等 字样， 并且 都写明 「数 据源： 港大 民意网 站」。 

评： 不 能排除 「评 分以 50 分 及格」 为 记者的 诠释， 在港大 民意网 站中， 找不到 
「评 分以 50 分 及格」 的 字眼。 找到 的请告 诉我。 

「例证 九」: 钟庭耀 1997 年 7 月 出版的 《民意 快讯》 第 11 期， 在 总结港 督彭定 
康的 支持度 评分时 表示: 「整体 而言， 彭定康 所得的 分数一 直能够 维持在 50 分的 
合 格分数 以上， 反映 彭定康 在市民 心目中 的形象 尚算不 俗。」 据港 大民意 网站介 
绍， 无论 是对回 归前的 港督， 还是回 归后的 特首， 支 持度评 分的提 问方式 是一样 
的。 

评： 翻查 港大民 研出版 的当期 《 民 意快 讯 》， 确实清 楚写到 50 分 为及格 分数的 
说法。 这 是九个 「例 证」 中， 唯 一一 个清晰 见到有 「50 分 为及格 水平」 的 字眼。 
钟庭耀 如果要 奉陪辩 论下去 的话， 这 点需要 解释。 笔者 意见， 港大 民研网 站如大 
海一样 的历史 资料， 只有一 两个矛 盾位， 「算系 咁」。 

长篇 大论， 真 的唔好 意思。 总结： 九个 「例 证」， 五个为 曲解、 误 解或过 分跳跃 
阅读的 错解， 三个 有可能 是记者 自己的 诠释， 只 有一处 1997 年的说 法出现 矛盾。 

张志 刚与建 制派的 批评， 一直 针对港 大民研 计划， 其实 中大也 一直有 同类型 调查， 
为何不 批判中 大呢？ 他们 要求要 公开调 查原始 数据， 港大民 研自负 盈亏， 数据属 



学术 资产， 是 日最新 发展， 港大 民研发 声明， 公开全 部有关 梁振英 民望的 原始数 
据， 真的 慷慨。 其实， 中 央政策 组也用 公帑资 助不少 学者做 研究， 他们的 研究成 
果， 枉论公 开原始 数据， 研 究报告 也只能 于网上 查阅到 摘要。 既有此 「公 开原始 
数据」 的 要求， 是 否公帑 资助的 研究， 也应公 开原始 数据？ 

统计 数据， 应用 interval 还是 ordinal, 各有 优劣， 50 分 应如何 定义与 诠释， 本应 

属于学 术讨论 范畴， 难分 对错， 而 且任何 方式的 诠释， 也 只差两 三分， 为 何左报 
与 建制舆 论对一 个学者 频密施 袭了？ 大家何 时对学 术咁有 兴趣了 ？ 

事件风 眼中的 主角钟 庭耀， 一 直甚少 正面响 应各种 批评， 他最近 在港台 《传 媒透 
视》 有一 篇文章 〈 从国 王的新 衣的说 起 〉， 详 细说了 「国 王的 新衣」 故事， 文末 
有这样 两段： 

「国 王没有 雅量， 谗 臣乘机 取巧。 先 把小孩 打成造 反派， 再把 科学变 歪理。 然后 
口诛 笔伐， 肆意 攻击， 制 造白色 恐怖， 以为可 以解决 问题。 谁 知道， 真理 不会被 
改变。 掩耳 盗铃， 只 会弄巧 反拙。 

面 对来势 汹汹的 攻击， 笔者并 不急于 响应。 有 助学术 研究和 公民社 会发展 的理性 
讨论， 笔者当 然积极 参与。 对于那 些不怀 好意、 借故 诋毁的 谩骂， 就由它 们在历 
史洪流 中消失 好了。 真理不 在口舌 之间， 只 要把事 实纪录 下来， 谁是 谁非， 历史 
自有分 晓。」 



民调 真相 此中寻 [关 焯照、 周 文林、 雷 照盛] 

苹 果日报 2014 年 3 月 26 日 

港大 民意研 究计划 （下称 「港大 民研」 ） 的特首 民调争 议越演 越烈。 网站 「港人 
讲地」 和行 会成员 张志刚 在这几 天仍在 电子传 媒和报 章发表 批评， 认为港 大民研 
以评 分计算 民望的 做法有 问题。 同时， 将 50 分 厘定为 「一 半半」 可被一 般市民 
视 为合格 分数， 此外， 将 被访者 的评分 划分为 「0 至 49 分」、 「50」 及 「51 至 100 
分」 的 概念， 可能令 问题含 糊化。 

首先， 笔者写 这篇文 章的目 的是， （1) 澄清 一下做 民调分 析需要 注意的 地方， （2) 
希 望避免 民调结 果的解 读产生 误解。 

港人 讲地及 张志刚 猛烈批 评的港 大民研 的民调 问题是 特首的 支持度 评分， 其的内 
容是： 「而 家想 请你用 0-100 分评价 你对特 首梁振 英的支 持度， 0 分 代表绝 对不支 
持， 100 分代 表绝对 支持， 50 分 代表一 半半， 你会 畀几多 分梁振 英呢？ 」 

港大民 研是采 用统计 学上常 用的等 距量表 （Interval Scale) 的方法 去量度 特首的 
支持度 （由 最低的 0 分至 最高的 100 分）。 这 种做法 的好处 是从得 分上了 解到市 
民支持 特首的 「程 度」 （附图 ）。 大 家可以 细想， 有两位 被访者 给予的 分数是 51 
分和 90 分， 显然， 评 90 分的被 访者的 支持度 远较评 51 分的 被访者 为高， 但如 
果采 用港人 讲地和 张志刚 的提议 方法去 分组， 以 50 分为 中间点 分界， 然后将 0-49 
分和 50-100 分别 厘定为 「不 合格」 和 「合 格」， 读者 便不能 看到这 两个评 分的差 
异了。 

港 人讲地 和张志 刚的做 法是将 0 至 100 分的 范围变 换为两 个不同 组别， 「合 格」 
与 「不合 格」。 如 果用统 计学的 说法， 他 们是用 一个顺 序量表 （Ordinal Scale) 去 
将数 据分类 —— 即是变 为分类 数据。 如果 用以上 例子， 51 分和 90 分是纳 入为同 
一组别 （合格 ）， 但 问题是 51 分和 90 分 是分代 表不同 程度的 支持， 但在 归纳组 
别过程 （Aggregation) 中， 这种支 持程度 的差距 便会被 剔除， 对 研究者 来说， 这 
可视 为流失 了重要 资料， 最终 令研究 质量被 拉低。 

一 个相关 的难题 是一旦 采用港 人讲地 和张志 刚所提 出的二 元答案 （合格 和不合 
格） 作为 分析， 在这情 况下， 问题 的字眼 和答案 是需要 修改。 例如， 问题可 写为： 

「你支 不支持 特首梁 振英？ 」 而答案 分别是 「支 持」、 「不 支持」 和 「无意 见」。 
一 旦港大 民研的 问题重 新改写 为港人 讲地和 张志刚 的问题 格式， 得出 来结果 （例 
如支持 度的百 分比） 是极 可能有 差距， 因为 问题的 本质和 问法已 不同， 至 于差距 



在 统计学 上是否 有明显 分别， 这 便要用 适当的 统计方 法去验 证了。 

最后， 另 一个争 论点是 50 分是否 一个合 格分。 单 以民调 的问题 措辞， 笔 者看不 
到 港大民 研有任 何表示 50 分是一 个合格 分数。 至于 「一半 半」， 是一 个中性 词汇， 
可 解读为 「中间 点」、 「一 般」、 「普普 通通」 等。 然而 港人讲 地和张 志刚坚 持认为 
50 分 是一般 人理解 为合格 分数， 这只是 他个人 意见， 正确 与否， 学 界自有 公论。 

现在 整个港 大民研 的民调 争议只 是各说 各话， 犹 如鸡同 鸭讲。 但 笔者要 指出， 做 
学术 研究是 需要保 持严谨 态度， 无论 从民调 内容、 样 本的收 集方法 和统计 分析均 
要达 到起码 的学术 水平， 这才 能令人 信服。 

经济 学家、 冠 域商业 及经济 研究中 心主任 
经济 学家、 冠 域商业 及经济 研究中 心高级 研究员 

统计 学家、 港大统 计及精 算学系 讲师、 冠 域商业 及经济 研究中 心研究 



照 林 盛 

焯 文 照 

关 周雷员 



卢 先亚： 特 首的妈 （一) 



2014-3-28 

前几天 看到了 张志刚 先生为 了护主 ，在 他报再 次向钟 庭耀博 士及挺 身而出 的关焯 
照 博士， 就民 调一事 「叫 阵」， 且在 文中引 述好些 统计学 的专业 用语， 例 如甚么 
等距 （interval). 有序 （Ordinal) 数据 等等， 明显 就是要 吓唬外 行人。 我自问 

不学 无术， 未 敢轻言 反驳， 所 以特地 请教我 的一位 学弟， 现该说 是一位 学者。 他 

与统计 结缘廿 多年， 持 有统计 学博士 学位， 年少 时甚至 当过访 问员， 及后 任教统 

计 课程， 并 主理多 个大型 统计调 查及参 与民调 工作， 现仍 在这领 域继续 研究， 可 
知 其醉心 程度。 

当 我致电 并道明 来意， 他努力 尝试透 过电话 解说， 我 越听越 唔知佢 嗡乜， 咁话晒 
都系学 究嘛， 当他 亦然发 觉话筒 另端的 「接 收」 有 问题， 他说不 如发个 电邮以 
资 说明， 我自 是求之 不得。 虽然 我还得 再三恳 请他要 写得浅 白入屋 一些， 而他亦 
同 时叮嘱 我千祈 「唔 好开 名」。 我 明白学 院中人 大都不 爱拋头 露面， 惟更 清楚的 
是， 若然无 端拖他 下水， 只怕 钟庭耀 之外， 又 多一位 统计专 才遭受 打压， 我又 
于心 何忍。 不过， 跟 手收到 其洋洋 数千字 的鸿文 更知， 其 实佢根 本就系 想直斥 
痛骂张 志刚！ 我又怎 不玉成 美事。 惜原文 太长， 节录 之余， 还 要分日 刊出。 以下 
是学弟 的话， 而括号 内乃我 后加： 

张志刚 先生， 在此 响应你 在报刊 所写。 特首 也并不 是我的 儿子， 我 更不愿 作特首 
的妈！ （谁 又想天 天捱骂 呢！） 一区之 首亦不 是小朋 友默书 考试！ 我 不知道 阁下对 
儿 女要求 如何， 但大部 分港妈 亦不会 接受仔 女只拿 50 分， 何况 是特首 要职！ 比 
方说， 在职 场上， 谁 会接受 在工作 上只有 50 分的 下属？ 怕 早给炒 掉了！ （这 点我 
可 左证） 大部 分有志 气有理 想的人 （与张 先生无 关）， 亦不 会甘心 跟随能 力只有 
50 分 的上司 工作， 没前途 的吧！ 所以请 不要在 50 分 上沾沾 自喜， 况且我 们的特 
首在最 新的港 大民调 中只得 47.5 分呢 ！ 

在 张先生 文中， 论定港 大民调 问卷中 的所谓 支持程 度是属 于等距 (interval) 数据， 
原 因是原 始数据 (raw data) 只 记录了 0 至 100 分， 当中 并没有 支持、 一半 半及不 
支持的 字样。 这种论 证确实 粗疏！ 专 业统计 人员都 知道， 原始 数据不 能单独 使用， 
一定要 参照编 码手册 (coding manual) 或问卷 设计。 举例， 问 卷可能 会包含 一些有 
关出 生地、 职业、 行业等 问题， 一 般会用 数字代 码记录 （例如 1 代表 香港、 2 内 
地及 3 其他地 方）， 一 来比较 方便， 亦同 时大大 减少电 子档案 存量。 如果 不参照 
编 码手册 （coding manual) 或问卷 设计， 原始数 据就出 现不能 解读， 甚 或误读 
的 情况。 而张先 生的论 据只是 简单对 号入座 的误读 罢了。 



参考港 大民调 问卷， 该问 题是： 「而 家想 请你用 0 至 100 分 评价你 对特首 梁振英 
既支持 程度， 0 分代表 绝对唔 支持， 100 分代 表绝对 支持， 50 分 代表一 半半， 你 
会俾几 多分特 首梁振 英呢？ 」 自 90 年 代起， 港大民 调一向 是使用 CATI 系统 （学 
弟列出 全写， 我从略 ）， 即是使 用计算 机抽选 电话， 自动 拨号至 接通， 访 问员会 
准确 依据计 算机所 示读出 问题再 把受访 者答案 输入计 算机， 整个过 程亦有 主管在 
旁监 听以确 保数据 质素。 所 以每个 受访者 亦会清 楚明白 50 分 代表一 半半， 而不 
是代表 合格， 这是 无可争 议的。 



卢 先亚： 特 首的妈 （二） 
2014-3-31 

在讨 论甚么 是合格 之前， 首 先要了 解甚么 是支持 程度。 支持 程度和 考试测 验最大 
的分别 是后者 大多数 有明确 的评分 标准， 例 如答对 一题有 10 分， 而合格 标准则 
是 老师或 教授们 的专业 判断。 学 术程度 越高， 合格标 准就越 严格， 例如 医生、 工 
程 师等专 业考试 要求就 很高， 人命关 天噢！ 所 以考试 分数大 多是定 义明确 的集合 
(well-defined set) 。但 在社会 研究或 行为科 学等领 域中， 很多时 要处理 一些含 
糊 不清、 定义 不明确 的变量 （variable) ， 数学上 称为模 糊集合 （Fuzzy set )， 
例如 快乐、 情绪、 生 活满足 (life satisfaction )、 工 作动力 (work motivation) 等 
等。 一 些社会 学家、 心理 学家、 计量心 理学者 （psychometrician) 、 教 育学者 
就会 以李克 特量表 （Likert Scale, 下简称 量表） 为这 些模糊 概念作 简单的 量化描 
述， 即 是问卷 常用的 5 级设计 ： 

1. 非 常同意 

2. 同意 

3. 既不 是同意 亦不是 不同意 （或作 中立） 

4. 不同意 

5. 非常 不同意 

有 些研究 员会再 把量表 扩展为 7 级 或更高 级别， 而港 大民调 只是把 量表以 0 至 
100 分 表示， 而 50 分则为 101 级 量表的 「一半 半」！ 对照 5 级量 表其实 分别不 
大， 只 是支持 及不支 持两方 面被划 分得更 仔细。 值 得注意 的是， 量 表并非 等距， 
即是 （4 不 同意） 并不是 （2 同意） 的 两倍， 但一 定对称 （symmetric^ 同理， 
港 大民调 中所谓 的支持 程度， 50 分 亦不是 25 分的 2 倍， 而 用量表 所计算 出来的 
平 均数亦 只是一 种中间 趋势的 描述， 这亦 是对称 设计的 结果。 

那么怎 样才叫 合格？ 钟博士 讲得很 清楚， 在 港大民 调设计 之中并 没有考 虑这问 



题！ 至于 怎样去 订立合 格线， 我建议 可在港 大民调 中加入 问题， 例 如问： 你觉得 
作 为一个 特首， 社 会大众 对其支 持程度 （0 至 100 分） 应该 （i) 要达到 几多分 
以上才 可以叫 做合格 （即 Pass) 呢？ （ii) 要达 到几多 分以上 才可以 叫做良 （即 
Pass with Credit) ？ (iii) 要达 到几多 分以上 才可以 叫做优 (即 Passwith 
Distinction) ？ 另外， 亦 可找来 政冶学 及公共 行政学 的学者 （经济 学者， 尤其 
姓 雷的， 大可 不必） 们， 为特首 这职位 定一些 标准。 当中并 不一定 只采用 社会大 
众的支 持程度 作唯一 条件， 同时可 加入其 他可测 计量， 例如 GDP 增长、 坚尼系 
数、 犯 罪率、 环保 指标、 新闻及 言论自 由指标 等等。 

我只想 强调， 特首 是重要 之职， 合 格并不 足够， 香港作 为一个 现代化 的国际 城市， 
要 有一个 具杰出 工作能 力并获 大众支 持的特 首方是 王道。 另外， 张 先生一 再要钟 
博 士为过 去传媒 的报道 负责。 这 显然不 是统计 问题， 但 我亦想 请教张 先生， 有几 
许 公众人 物包括 特首、 司长、 局长 以致阁 下又何 曾会为 传媒的 报导负 责呢？ 梁振 
英 N 年前 也说 不会选 特首， 张先生 曾几何 时亦公 开赞扬 港大民 调中立 专业。 那 
张先生 又如何 对自己 的言论 负责？ 梁特首 又是否 要为自 己反口 食言负 责呢？ 

事 实上， 民 调是一 项以统 计学为 基础的 社会研 究专门 科学， 张先生 可能并 不是这 
方面的 专才， 那 么还请 留待其 他学者 们讨论 交流。 而张 先生贵 为行会 成员， 亦请 
不 要重私 忘公， 免 得引起 社会大 众误会 行会打 压学术 自由， 那 就相当 不妙！ 

最后， 我要 向张先 生表达 敬意， 你甘愿 接纳与 支持一 个不足 50 分的 特首， 只因 
视 特首如 己出， 把 他当作 儿子般 看待， 实有为 人母亲 的伟大 情操！ （主 席按： 果 
然 是温良 恭让的 学者， 未句明 明就是 「他 妈的」 伟大！ ） 



港 大民调 之统计 学解读 《有涯 小扎》 



摘要： 本文透 过统计 学分析 方法， 检视 近日舆 论对港 大民调 中特首 民望调 查的批 
评及 反驳， 探讨这 些言论 背后的 统计学 理据。 本 文作者 认为， 港大 民调在 抽样方 
面十分 严谨， 但在设 计问卷 和演绎 结果方 面有值 得适榷 之处。 本文 又对港 大民研 
所公 布的原 始数据 进行了 进一步 分析， 指出 当中所 蕴含的 启示， 并据 此提出 建议。 

引言 

近日有 关香港 大学民 意调查 （下 称港大 民调） 的争 论甚嚣 尘上。 港 大民调 是香港 
大学 民意研 究计划 （下 称港大 民研） 定期 举行的 民调， 由香 港大学 政治与 公共行 
政 学系的 钟庭耀 主持。 民调内 容包括 特首、 政府、 主要 官员、 议员 民望， 及其它 

社会 指标等 (《 香 港 大学民 意研究 计划 》 ）。 2014 年 2 月 8 日， 民主党 党员、 律师 
陈庄 勤在明 报发表 《沉 默的 螺旋》 一文， 批评 港大民 调以平 均分来 表达特 首梁振 
英 民望， 结果 易被极 端数值 影响， 又以 50 分作 为合格 分数， 并不 全面。 同时这 
些民调 「本 身并 不单单 在反映 民意， 也同 时在以 定期公 布评分 来塑造 民意」 （2 
月 8 日明报 陈庄勤 《 沉 默的 螺旋 》 ）。 3 月 4 日， 在北 京举行 的政协 港澳联 组会议 
上， 政协 常委、 恒基地 产副主 席李家 杰点名 批评钟 庭耀， 指其主 持的港 大民调 「总 
是在 关键时 候发表 对中央 政府、 特区政 府以至 整个爱 国爱港 阵营十 分不利 的民意 
调查结 果」， 藉此 「操 弄民 意」。 他 又认为 钟的民 调不够 科学， 却是 香港众 多民调 
机构中 最具影 响力的 一个， 必须尽 快改变 （3 月 5 日 AM730 〈 〈 李家 杰批评 钟庭耀 
用 民调为 反对派 造势 》 ）。 钟庭耀 于同日 发表书 面声明 响应， 指出 其调查 方法经 
得 起学术 考验， 「总 会坚 持科学 透明的 原则， 从 不迁就 对方的 政治背 景或立 场」， 
认为 「如果 把言论 自由的 忧虑， 进一 步扩大 至学术 自由的 空间， 是 非常不 智的做 
法。」 他又 欢迎任 何人士 讨论民 意研究 工作， 「只要 是实事 求是， 客观 公正， 便可 
集思 广益」 （港 大民研 〈 〈 关于 政协委 员李家 杰于政 协会议 上有关 「民意 调查」 的 
言论》 ）。 



争 论焦点 

陈、 李二 人的批 评引起 了广泛 关注。 有 论者从 政治立 场和动 机立论 （如 3 月 17 
日 文汇报 文平理 《 「钟氏 民调」 真 的是学 术吗？ 》、 3 月 18 日 苹果日 报李怡 《直 
民调 为扼杀 民意 》 ）， 本文对 此无意 涉猎。 另 有论者 从统计 学角度 评论钟 的研究 
方法。 行 政会议 成员张 志刚在 电台节 目称， 钟庭耀 曾经多 次提到 50 分是 合格水 
平， 认为 他有需 要向公 众交代 （3 月 20 日商 业电台 《 张志 刚指钟 庭耀多 次提及 
五 十分属 合格 》 ）。 他又 认为， 在 极端评 分的影 响下， 用平 均分来 评核梁 振英表 
现， 犹 如瞎子 摸象， 普通 人亦难 以理解 50 分是 否合格 水平。 若 50 分 属于不 合格， 
港大 应清楚 说明， 并 解释何 谓支持 度评分 合格或 不合格 （3 月 21 日 大公报 《1 



志刚 促钟庭 耀交代 民望 50 分是否 合格 》 ) o 陈 庄勤则 指出， 「在一 般人心 目中， 
50 分这及 格分具 有非常 重要的 象征意 义」， 但 如果只 公布平 均分而 不公布 各评分 
的人数 分布， 便 是不完 整的民 调结果 公布。 以今 次民调 为例， 61.8% 受访 者给予 
合格 分数， 38.2% 给予 不合格 分数， 跟两 大民研 / 民 调机构 定期公 布以平 均分均 
多 数低于 50 分所 显示的 民情相 去甚远 （2 月 8 日明报 陈庄勤 《 沉默 的螺旋 》、 3 
月 20 日明报 陈庄勤 〈 〈 再谈 民调 》 ）。 网站 「港人 讲地」 亦提 出类似 论点， 指出整 
体平 均分被 0 分的 「极端 评分」 拉低， 令梁 振英支 持度被 低估， 认 为应取 中位数 
更佳。 过往 多年的 新闻报 道都把 50 分演绎 为及格 分数， 港 大民研 亦未有 澄清， 
令市民 累积了 「50 分等同 合格」 的 印象。 又批评 港大以 SPSS 格式发 布原始 数据， 
必须装 有特定 软件才 能开启 （3 月 14 日港 人讲地 《 解 幵特 首民望 「不 合格」 之 
遗》、 3 月 20 日港 人讲地 《 有关港 大民调 的几个 疑问： 覆练 乙錚及 关焯照 两位学 
!：》）。 公民党 党员、 港大 法律学 院院长 陈文敏 认为， 剔除极 端数据 是普遍 做法， 
因为 更能反 映现实 （YouTube 视频 《 公 民党港 大法律 学院院 长陈文 敏都觉 得钟庭 
耀的民 调做法 不是专 业手法 》）。 中大亚 太研究 所研究 员郑宏 泰称， 港大 民调的 
50 分没 有正面 意思， 不 能视为 合格， 与 中大民 调讲明 50 分及 格并不 相同。 但 0 
分亦 是表达 出某类 民意， 从 政者应 予注意 （3 月 20 日明报 〈 〈 特首 民望 50 分意义 
中大 「及 格」 港大 「一 半半」 》）。 

因应 批评， 钟 庭耀在 港大民 研网站 重贴了 2003 年 的两篇 文章， 解 读特首 民望调 
查 的设计 ( 《 「特 首 民望新 解」、 「问 责官 员如何 向民意 问责？ 」 》）。 文章 指出， 
55 分的支 持度大 约等如 假想投 票中的 45% 的 「得票 率」， 50 分的 支持度 则可化 
成大约 30% 的 「得票 率」， 45 分 大概会 转化为 20%， 而 40 分大概 会化成 10% 至 
15% 左右。 其后， 钟 又在出 席一个 论坛时 响应， 指使 用平均 分是国 际常用 标准。 
而 50 分只 是一个 中性的 分数， 没 有所谓 合格不 合格。 至 于开启 SPSS 格式 档案的 
软件， 在 大学可 以免费 下载， 他 相信任 何一个 专业研 究机构 都有相 关软件 （3 月 
15 日商 业电台 〈 〈 钟庭 耀指 国际间 最常使 用平均 分作研 究结果 》）。 前中大 经济学 
教授、 现职冠 域商业 及经济 研究中 心的关 焯照， 联 同经济 学家周 文林、 统 计学家 
雷 照盛等 撰文， 指 出根据 问题的 措辞， 50 分只 是代表 「一半 半」， 没有任 何暗示 
这是一 个合格 的最低 门坎。 如果把 50 分归入 合格， 会得出 61.8% 的人给 了合格 
分数。 但 如果把 50 分 归入不 合格， 会得出 66.4% 的 人给了 不合格 分数， 两者结 
果 相反。 解决方 法是把 一半评 50 分的 人归入 0-50 分 一组， 另一 半归入 50-100 
分 一组， 结 果是有 52.4% 的 人给了 0-50 分， 反 映特首 的支持 度评分 不是太 理想。 
他们同 意一旦 出现很 多人选 择极高 或极低 评分， 平均 分不是 最好的 指标， 建议同 
时 公布中 位数和 众数， 或剔除 极高或 低评分 部份， 计算 「截 尾均 值」。 但 他们亦 
认为， 极高和 极低的 评分也 是重要 的统计 资料， 不 能忽略 （3 月 20 日苹 果日报 
关 焯照、 周 文林、 雷照盛 《 民 调小 学鸡 》 ）。 传媒 工作者 练乙錚 则指， 港 大民调 
的特 首民望 评分由 0 至 100， 即有 101 个 整数， 50 分 居中， 故 此应尊 重给予 50 
分者 的中立 态度， 而非把 50 分 理解为 支持梁 振英。 至于 0 分与 100 分， 在港大 



民调 中都有 清楚而 具体的 定义， 不应 剔除。 若真 要剔除 0 分， 亦应同 时剔除 100 
分。 即使剔 除了， 平 均值仍 是低于 50 分 （3 月 20 日信报 练乙錚 《 打棍 无效： 网 
小 子放倒 「巨 人」 张 志刚 》 ）。 



下表总 结了两 方面的 言论: 





批评 


反驳 


平均分 


■ 整体 平均分 被极端 评分拉 


■ 使用 平均分 是国际 常用标 


与极端 


低， 低估 特首支 持度。 （陈庄 


准。 （钟 庭耀） 


评分 


勤、 港人 讲地） 


■ 0 分亦表 达出某 类民意 ，从政 




■ 剔除极 端数据 是普遍 做法， 


者应 注意。 （郑 宏泰） 




更 能反映 现实。 （陈 文敏） 


■ 极高和 极低的 评分也 是重要 




■ 一旦出 现很多 人选择 极高或 


的统计 资料。 （关焯 照等） 




极低 评分， 平 均分不 是最好 


■ 0 分与 100 分都 有清楚 而具体 




的 指标。 可同 时公布 中位数 


的 定义， 不应 剔除。 若真要 




和 众数， 或剔 除极高 或低评 


剔除 0 分， 亦应同 时剔除 100 




分 部份， 计算 「截 尾均 值」。 


分。 即使易 除了， 平 均值仍 




(关焯 照等） 


是低于 SO 分。 （练 乙铮） 




■ 类似 0 分或 100 分的 的极端 






评分将 会愈来 愈多， 因此不 






能单单 公布平 均分， 可以中 






位数 代之。 （港人 讲地） 




关于 50 


■ 以 50 分为合 格分数 并不全 


■ 50 分只 是一个 中性的 分数， 


分是否 


面。 给 予合格 分数的 人数是 


没 有所谓 合格不 合格。 （钟庭 


合格分 


占 总受访 人数的 61.8%， 给予 


耀） 


数 


不合格 分数的 人数占 总受访 


■ 55 分的 支持度 大约等 如假想 




人数的 38.2%。 这样的 结果与 


投 票中的 45% 的 「得票 率」， 




多 年来两 大民研 / 民 调机构 


50 分的 支持度 则可化 成大约 




定期公 布以平 均分均 多数低 


30% 的 「得票 率」， 45 分大概 




于 50 分 所显示 的民情 相去甚 


会 转化为 20% ， 而 40 分大概 




远。 （陈 庄勤） 


会化成 10% 至 15% 左右。 （钟 




■ 港大 民调的 50 分没有 正面意 


庭耀） 




思， 不 能视为 合格。 （郑 宏泰) 


■ 根据 问题的 措辞， 50 分只是 




■ 有 愈六成 人给了 50 分 以上的 


代表 「一半 半」， 没有 任何暗 




分数。 过往 新闻报 导都把 50 


示这 是一个 合格的 最低门 




分演绎 为合格 分数， 令市民 


坎。 50 分是评 分的中 间点， 




累积了 「50 分等同 合格」 的 


如果把 50 分归入 合格， 会得 




印象， 港大 有必要 澄清。 （港 


出 61.8% 的人给 了合格 分数。 




人 讲地） 


但 如果把 50 分 归入不 合格， 





■ 翻 查以往 报道， 发现 钟庭耀 

曾多 次提到 50 分是 合格水 
平。 普 通人难 以理解 50 分是 
否合格 水平， 认 为钟要 澄清。 
(张 志刚） 


会得出 66.4% 的人给 了不合 
格 分数， 两 者结果 相反。 解 
决方 法是把 一半评 50 分的人 
归入 0-50 分 一组， 另 一半归 
入 50-100 分 一组， 结 果是有 
52.4% 的 人给了 0-50 分， 反映 
特首的 支持度 评分不 是太理 
想。 （关焯 照等） 
■ 特 首民望 评分由 0 至 100， 50 
分 居中， 应尊 重给予 50 分者 
的中立 态度， 不应 擅自将 「50 
分」 定义为 「合 格」。 （练 乙铮) 


数据格 
式问题 


■ 港大以 SPSS 格 式发布 原始数 

据， 必 须装有 特定软 件才能 
开启。 （港人 讲地） 


■ 开启 SPSS 格式 档案的 软件， 

在 大学可 以免费 下载， 相信 
任何一 个专业 研究机 构都有 
相关 软件。 （钟 庭耀） 



关 于民调 的统计 学基础 

民 调在外 国称为 opinion poll, 其要旨 是运用 统计学 方法， 找出一 个群体 对于某 
个社会 议题的 意见。 统 计过程 可以分 为五大 步骤： 收集、 组织、 分析、 演绎、 发 
表 ( 《 What Is Statistics? - Overview 》 ） 。 



做民调 的最理 想方法 是从整 个群体 （称为 「母体 （population)]) 中收集 数据， 即 
要访 问群体 内的所 有人， 如此 即能得 出全面 的统计 数据， 这种做 法称为 「人 口普 
查 （population census)」。 但现实 中往往 由于目 标群体 的人数 众多， 只能从 受访对 
象之 中作随 机抽样 （random sampling) 并进行 访问， 这种做 法称为 「抽 样统计 
(sample statistics) Jo 无 论是人 口普查 或抽样 统计， 在 得到原 始数据 之后， 研究员 
都会 组织并 分析原 始数据 以进行 总结。 最 常见的 总结方 法是取 平均值 （mean) 和 
标 准偏差 （standard deviation) ，以 展示数 据的中 央趋势 （central tendency) 和分散 
程度 （variability) 。 中央 趋势的 量度， 还 可以用 中位数 （median) 和众数 （mode)。 
分散程 度的量 度还可 以用数 值范围 （range, 即最大 数减最 细数) 、方差 （variance, 
即标 准偏差 的平方 ）、 百 分位数 （percentile) 等。 除了中 央趋势 和分散 程度， 有 
时还要 量度数 值分布 的偏度 （skewness, 即非对 称性） 和峰度 （kurtosis, 即尖峰 
的尖 锐程度 )。 这 些都是 尝试用 少量的 数字， 去总 结一大 堆数据 的整体 特性。 数 
字 之外， 有时也 会用图 表表示 数据的 特性， 最常见 的是以 直方图 （histogram) 来 
展现数 据的频 率分布 （frequency distribution^ 从上文 可知， 数字 简洁易 用但流 
于 片面， 图 表表达 较麻烦 却能给 出更多 方面的 数据， 研究员 在报告 中往往 要两者 
配合 使用， 才能展 现数据 的真实 特性。 



用这些 统计结 果来描 述原始 数据的 特性， 称 为描述 性统计 （descriptive statistic^ 
如果 是从样 本的特 性来推 论整个 母体的 特性， 则称 为推论 性统计 （inference 
statistics) 。 中央极 限定理 （central limit theorem) 表明， 如果样 本数足 够大， 而 
且抽 样足够 随机， 则 样本的 平均值 会呈正 态分布 （normal distribution) 并 趋近母 

体的平 均值， 而标 准偏差 则为母 体的标 准偏差 除以样 本数的 开方。 只要符 合中央 
极限 定理的 条件， 便 可以从 样本的 平均值 和标准 偏差， 推测 母体的 平均值 和标准 
偏差， 并推测 这些推 测的置 信区间 （confidence interval) ， 以估计 可能的 误差范 

围， 从而 决定推 测的可 信性。 然后， 研究员 便会就 着有关 调查的 主题， 演 绎并发 
表调查 结果。 

关于 上述的 统计学 理论， 可以 参考一 般的统 计学入 门书籍 （如 ((Qpenlntro 
Statistics 》）。 

抽样调 查可能 出现以 下几种 误差： 

其一、 因为样 本缺乏 代表性 而引入 误差。 抽样必 然要忽 略母体 中部份 人士的 意见， 
样本 越小， 遗漏 越多， 因此样 本必须 要有代 表性， 即 其成份 跟母体 相若， 否则从 
样本 的特性 来推论 整个母 体的特 性时， 便会出 现误差 (Wilks, 1940)。 例如， 有文 
献 指出部 份在美 国进行 的电话 调查， 只 对家用 电话号 码进行 抽样， 但现今 越来越 
多人只 用手提 电话， 作者 认为有 证据显 示这些 只用手 提电话 的人有 相当不 同的政 
见， 因此以 家用电 话受访 的样本 不能代 表他们 （Mokrzycki,2010)。 

其二、 受访 者未必 愿意表 达自己 的真实 看法。 例如 问题较 敏感， 令 受访者 不想或 
不 敢表达 意见。 有 学者提 出沉默 的螺旋 （spiral of silence) 的 概念， 指出如 果受访 
者认 为自己 的意见 属于少 数派， 便可能 不敢发 表真实 的意见 （Noelle-neumann, 
1974) o 一项以 台湾与 美国人 为对象 的研究 指出， 接 受电话 访问时 台湾人 展现了 
沉默 的螺旋 现象， 美 国人则 不然， 显示某 种文化 特质可 能会导 致这现 象出现 
(Huang, 2005)。 

其三、 访问的 用语或 会影响 结果。 不同 文化、 不同背 景的人 对问题 可能有 不同的 
理解 （Groves, 2009)， 影响 数据的 有效性 （validity)。 

其四、 在 总结报 告时， 无可避 免要忽 略原始 数据中 的一些 数据。 例 如平均 值的计 
算方 法是将 数据总 和除以 个数， 从平均 值却不 能反过 来计算 出原始 数据。 以 {0, 
60,60} 和 {40,40,40} 两 组数据 为例， 平均 值都是 40。 两组数 据明显 不同， 却 
无法从 40 这个数 字得知 有甚么 不同， 因为 原始数 据的细 节被忽 略了。 如 果统计 
量 的选取 不宜， 便会在 演绎出 误导的 结果。 部 份舆论 针对平 均值所 提出的 质疑， 
即属这 一类。 



港大民 调使用 的方法 

港大 民研网 站详列 了特首 梁振英 评分的 相关研 究方法 (《 特 首 梁振英 评分 》 ）。 调 

查 基本上 每两个 月进行 一次， 以电 话访问 18 岁以上 操粵语 的香港 市民。 每次样 
本数为 1000 或 以上， 抽样方 法是从 住宅电 话簿中 首先以 随机方 法抽取 「种 籽」 
号码， 在号码 上加减 1 或 2， 过滤 重复号 码后再 作随机 排列， 然 后提供 给访员 
进 行电话 访问。 如 果被抽 中的家 庭中成 员不止 一人， 就选择 下一位 即将生 日的家 
庭 成员作 访问。 

调 查的结 果经过 了加权 （weighting) 处理。 根据 上文所 引文献 （Wilks,1940)， 样 

本 的成份 要跟母 体相若 才有代 表性。 由于事 实并不 符合这 项要求 （例 如年 龄分布 
不同 ）， 因此研 究员按 2013 的中 期人口 统计中 的性别 与年龄 分布， 及 2011 年人 
口 普查中 的学历 分布， 对样本 进行了 加权， 其百 分比已 详列于 《 被 访者基 本个人 
资料 〉〉 网页。 例如， 18-29 岁 的人口 比例， 在 原始样 本中为 15.9%， 在加 权样本 
中 修正为 18.3%。 要留意 加权是 加在人 数上， 而不是 加在分 数上。 两者的 概念大 
有 不同。 例如一 个给了 50 分 的人， 若要将 其所占 的权重 加倍， 会 变成两 个给了 
50 分 的人， 而 不是一 个给了 100 分 的人。 有些 网站忽 略了这 一点， 错误 计算出 
大于 100 分 的评分 （如： 辅仁 网 《 港大 民 研特首 评分系 「 被 拉高」 还是 「 拉低 」 ？ 》）。 
调 查所用 的问卷 有几个 版本， 关于特 首民望 的问卷 编号为 tpl403013—01 (《 调 查 
问卷》 ）。 除了 询问受 访者对 特首的 支持度 之外， 问 卷还会 询问受 访者的 居住地 
区、 家 庭成员 人数、 是 否登记 选民、 有否在 各项选 举中投 过票、 性别、 年龄、 教 
育 程度、 居住 情况、 婚姻 状况、 职业 收入、 阶层 （如 中产、 基层等 ）、 出 生地、 
行业、 来 港年期 等等。 

关于 特首支 持度的 问题有 两条： 

■ Q1: 而家想 请你用 0 至 100 分 评价你 对特首 梁振英 既支持 程度， 0 分代表 
绝对唔 支持， 100 分代 表绝对 支持， 50 分 代表一 半半， 你会 俾几多 分特首 
梁振 英呢？ 

■ Q2: 假设明 天选举 特首， 而你 又有权 投票， 你会唔 会选梁 振英做 特首？ 

备受争 议的民 望评分 即来自 Q1 的 答案。 基 于近日 公众的 关注， 港大民 研网站 
公 布了最 近一次 （2014 年 3 月 3 日 -6 日） 的原始 数据， 文件 格式为 SPSS, 内里 
包含了 Q1 的 数据共 1017 条， 亦即 此次调 查的样 本数。 根据 SPSS 文件 内的说 
明， 其数 据结构 如下： 

■ 第 一列： 1-1017 的 编号； 

■ 第 二列： 受访者 所给的 Q1 的 分数； 其中 3 条 记录是 191， 代表 「不认 
识梁振 英」。 16 条 记录是 8888， 代表 「不 知道」 或 「不肯 讲」。 余下 998 
条为 0-100 间的 整数， 即为 受访者 给予梁 振英的 评分。 



■ 第 三列： 性别； 其中 1 代 表男， 2 代 表女。 

■ 第 四列： 年龄 组别； 其中 1 代表 18-29， 2 代表 30-39， 3 代表 40-49， 4 
代表 50-59， 5 代表 60-69， 6 代表 70 或 以上。 另有 4 笔 记录是 -99， 代表 

拒答。 

■ 第 五列： 一 个代表 权重的 数字； 例 如第一 笔记录 的人的 权重是 

0.85422675557, 表示 他在经 加权处 理的样 本中， 只代表 0.85422675557 

个人。 

就着 Q1 的 答案， 港大 民研原 先发表 的报告 中只报 告了以 下数点 (《 港 大 民研发 
放 特首及 问责司 局长民 望数字 》）： 

1. 特首 梁振英 的最新 支持度 评分为 47.5 分， 跟 两星期 前变化 不大。 

2. 样 本数是 1017。 

3. 回 应率是 65.9%。 

4. 误 差率是 +/-1.5， 即 3% (以 95% 置 信水平 计算） 

注： 报告亦 提及， 根 据民研 计划的 标准， 梁振 英属于 「表 现失 败」， 其定 义为反 
对 率超过 50%。 但反对 率来自 Q2 的 答案， 不 在本文 讨论范 围内。 有论 者认为 

「表现 失败」 是因为 梁的平 均分在 50 分 以下， 从而 引发关 于定义 合格分 数的批 
评。 按照 调查中 所用的 「民 望级别 总表」 中的 定义， 这项 批评并 不符合 事实。 

分析 及评论 

参照前 述抽样 调查可 能出现 的几种 误差， 比 较港大 民研网 站所列 的研究 方法、 数 
据和 分析， 我 们可以 评价港 大民调 在特首 民望评 分上面 的合理 与否。 
港大 民调以 电话进 行随机 访问， 对种 籽电话 号码进 行加减 处理， 并 以生日 日期选 
取家庭 成员作 访问。 最终 成功访 问的样 本数达 1000 以上， 响应率 65.9%， 又对 
数据进 行加权 处理， 应能 很大程 度上确 保了样 本的代 表性。 以家用 电话号 码来抽 
样， 可能会 出现美 国研究 中描述 的偏颇 情况。 但 目前没 有证据 显示， 忽略 手提电 
话的 用户会 对关于 特首民 望的调 查造成 偏颇的 结果， 因此不 能以此 作为对 港大民 
调的 指控。 

文献 指出人 们可能 会因为 自己的 意见属 于少数 派而不 敢发表 真实的 意见， 即 「沉 
默的 螺旋」 现象。 但 是次电 话访问 以匿名 进行， 应 能减低 人们的 担忧。 而且即 
使 「沉 默的 螺旋」 存在， 除非人 们认为 大多数 人都很 极端， 否则 「沉 默的 螺旋」 
亦 只会令 人们倾 向选取 中间的 答案， 不 会反过 来导至 「极端 答案」 的 出现。 
访 问用语 方面， 问卷的 说明是 0 分代表 绝对不 支持， 100 分代 表绝对 支持， 50 
分 代表一 半半。 如 果受访 者要从 这三个 分数中 选择， 大部分 都会选 中间的 50 分。 
如果要 给其它 分数， 受 访者就 要思考 其它的 数字。 图 一显示 各分数 的出现 频率， 
图二 将这频 率以图 象方式 表达。 从这 些数据 可知， 受访者 倾向给 出简单 的数， 其 
中 0 字 尾的数 字最多 （如 0,10,20,30,...)， 5 字尾 的数字 较少， 其它 数字最 多只有 



几个人 选择。 另外， 选 50 分 的人非 常多， 共 280 人， 选 0 分的有 91 人， 选 100 

分 的也有 29 人。 这三个 分数的 出现频 率比旁 边的分 数多出 很多。 理 论上， 1 分 
甚或 10 分的 相差应 该算是 轻微的 变化， 但对 受访者 来说， 这 0,50,100 三 个分数 
都具 有独特 意义。 1 分跟 2 分 之间可 能没有 差别， 0 分与 1 分之间 的差别 却是巨 
大的， 是质 变而非 量变。 同理， 100 分与 99 分 之间， 49、 50、 51 分之间 的差别 
亦然。 民调要 求受访 者给出 0-100 之间的 分数， 并以此 计算平 均值， 是假 定了这 
个分 数跟受 访者心 目 中 对特首 的支持 度之间 有一连 续变化 的线性 关系。 事 实上， 
问题的 问法赋 予了三 个分数 特别的 意思， 客观 上扭曲 了分数 分布。 这 效应在 50 
分这 一临界 点尤为 重要， 下面再 详述。 



> table(A$score) 



e 


1 






4 




6 


10 


15 


20 


25 


36 


35 


39 


40 


42 


43 


45 


46 


48 


91 






4 








18 




35 




79 


15 




92 






22 






49 


56 


51 


55 


56 


57 


59 


66 


b5 


68 


69 


79 


73 


75 


76 


78 


86 


82 


85 


89 




286 


1 


16 








195 


1.； 




1 


79 


1 


13 


1 




47 


1 







90 95 99 106 
13 2 4 29 

图一 •• 各分 数的频 率分布 

Score distribution (bin size=i) 
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图二: 分数 的频率 分布图 (以 1 分为 一格) 



图三: 未经 加权处 理的频 率分布 



原报告 以报导 平均分 为主， 新闻 媒体主 要亦以 这个数 字作为 讨论的 根据。 如前所 
言， 平 均分只 是总结 统计数 据的其 中一种 方式， 不同 的统计 量会给 出不同 方面的 
信息。 平均 分是最 常用的 方式， 其好 处是计 算涉及 所有的 数据， 坏 处是易 受极端 
数字 影响。 如 果数据 中出现 极端的 数字， 一般做 法是以 中位数 取代。 中位 数是指 

将 数据顺 序排列 之后排 在中间 的数。 例如， 数集 {0A0A100} 的平 均值是 20， 
中 位数是 0。 平均 值因受 100 影响， 其数值 不能很 好地反 映数集 的中央 趋势。 反 
之， 中 位数只 取决于 数字的 排列， 在这情 况下就 较能反 映中央 趋势， 这就 是为甚 
么入息 通常都 是以中 位数而 非平均 值来计 算中央 趋势。 至于 众数， 则是频 率最高 
的数， 在这例 子也是 0。 也有一 些情况 是三个 数字都 不能很 好地反 映中央 趋势。 
例如， 数集 {0,0,0,100,100,100} 的平 均值是 50， 中 位数是 50 (中 间两个 数的平 
均）， 众数是 0 和 100 (因频 率相同 ）， 三个 数字都 难以代 表数集 的总体 特性， 
因为数 集本身 就是分 化成两 边的。 一般 来说， 只 有当分 布接近 钟形分 布时， 这三 
个统 计量才 能较好 地反映 现实。 

从原 始数据 可知， 是次民 调的分 数分布 并不依 从钟形 分布， 单纯从 数字很 难对统 
计结 果作出 全面的 认识， 因 此以下 改由图 表进行 分析。 

图三 是以每 10 分为一 组的频 率分布 ，是未 经加权 处理的 结果， 分组 方法为 0-<10、 
10-<20、 20-<30、 30-<40、 40-<50、 50-<60、 60-<70、 70-<80、 80-<90、 90-<100， 
100-<110 0 留 意最后 一个分 组实际 上只有 100 分的 分数。 一般做 法是把 100 分归 
入前 一组， 变成 90-100。 但因在 这组数 据中， 100 分 出现了 峰值， 所以做 了这个 

特别 处理， 以免影 响了前 一组的 结果。 加权处 理则按 各权重 调整每 一组的 频率， 
分 组方法 相同， 结果 如图四 所示。 

Score distribution 




Score distribution (weighted) 



舰. 经过 加权处 理的频 率分布 

两 幅图只 有些微 差别。 由于 本文的 分析以 看图表 为主， 不涉 及计算 合格不 合格的 
问题， 为 了方便 说明， 以下 将采用 未经加 权处理 的频率 分布。 

跟图二 的结果 一样， 图 三清楚 展现了 0 分、 50 分和 100 分的特 殊性。 除 了总体 
的分 布外， 港大公 布的原 始数据 还包括 年龄和 性别的 资料， 因此我 们也可 以按性 
别和年 龄分别 画出各 组别的 分布， 如下面 两幅图 所示。 

Score distribution by gender 



图五: 以 性别分 组的分 数分布 
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Score distribution by age 
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图六: 以 年龄分 组的分 数分布 



先看 0 分的 情况。 无 论是按 性别还 是年龄 分组， 都可 以看到 0-<10 分 处出现 尖峰。 
从原 始数据 或图二 都可以 看出， 在 这个组 别里绝 大部分 都是直 接给了 0 分。 进一 
步说， 男性受 访者给 0 分的 人较女 性多， 有接近 15%。 而 30-39 岁的 组别给 0 分 
的人较 其它组 别多， 亦 是接近 15%。 从 40 岁 开始， 年纪 越大的 组别， 越 少人给 
0 分。 即使 忽略了 这些给 0 分的 情况， 也可 以看出 18-29 岁及 30-39 岁的 市民， 
评 分少于 50 分 的较评 分多于 50 分的 为多。 而随 着年纪 增加， 排除 0 分之 后两边 
趋向 平衡。 到了 60-69 岁及 70 岁或 以上的 组别， 则 有向右 边发展 之势。 因此， 
如 果以给 0 分的作 为对特 首极度 不满的 标示， 则可 以看出 最不满 特首的 是介乎 
30-39 岁的 市民。 从 40 岁 的组别 开始， 年纪 越大的 市民对 特首的 支持度 越高。 
18-29 岁是 刚刚毕 业出来 工作的 年纪， 30-39 岁 是成家 立业的 年纪。 这两 个年龄 
层的 不满， 或许 反映了 政府在 经济、 就 业等政 策上的 不足， 也有可 能是这 个年龄 
层的人 较关心 政治， 尤其 是在民 主发展 上产生 不满。 真正原 因必须 经进一 步研究 
确定， 本文只 能从数 据上指 出这一 现象， 没有足 够的资 料作出 解释。 

再看 50 分和 100 分的 尖峰。 明显的 100 分 尖峰只 出现在 70 岁或 以上的 组别。 事 
实上， 70 岁或 以上的 组别， 50 分尖峰 两边的 分布很 均匀， 而 50 分 尖峰比 其它组 
别都 突出。 图二的 分布也 显示， 50 分 尖峰的 人数， 远远超 出了钟 形分布 应有的 
数量。 透过比 较旁边 两组的 高度， 大约也 是多了 15%。 如前 所述， 问题的 设计很 
容易令 人选择 50 分。 这些 人要么 真是觉 得自己 对特首 的支持 度是一 半半， 也有 
可能只 是觉得 难以下 决定， 或者 根本没 有打算 认真思 考这个 问题， 只好给 一个中 
间的 分数。 如 果这班 人经过 了详细 思考， 就可能 会给出 较高或 较低的 分数。 鉴于 
这班人 的人数 不少， 他们的 决定会 对整体 分布产 生关键 影响。 无奈 问卷的 设计无 
法 把这批 人分辨 出来， 因 此我们 不知道 这班人 的真正 取态。 
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总结 及建议 

本文透 过统计 学分析 方法， 尝试 检视近 日舆论 对港大 民调的 批评及 反驳， 探讨这 
些言论 背后的 统计学 理据。 本 文作者 认为， 港大 民调在 抽样方 面十分 严谨， 但在 
设 计问卷 和演绎 结果方 面有值 得适榷 之处。 

其中， 无 论以平 均分、 中 位数还 是众数 来进行 统计， 都 不能全 面地反 映调查 结果。 
应该 同时公 布频率 分布， 甚至 是各年 龄组别 的频率 分布， 才 能从中 提出改 善施政 
的 建议。 在分 析极端 分数的 时候， 我们可 以把这 些分数 分开来 考虑， 以反 映其他 

人的 意见， 但极端 分数还 是有它 的重要 价值。 至 于给予 50 分 的人数 众多， 本文 
认 为是来 源于问 卷设计 出现了 问题， 致使难 以得知 这些人 的真正 取态， 降 低了调 
查的 价值。 

关 于合格 分数的 问题， 由于原 问卷设 计中， 50 分 只是一 半半的 意思。 以 50 分为 
合格分 数可能 符合一 些人的 直觉， 但本 文认为 没有压 倒性的 理由以 此定义 为合格 
分数。 合格 是最低 要求的 指标， 但这 个最低 要求设 在何处 则是没 有一定 准则。 即 
使在 学校的 考试制 度里， 合格 分数也 并非每 间学校 相同， 只能说 通常在 40-60 分 
之间。 本 文同意 钟氏的 说法， 50 分只 是一个 中性的 分数， 没有必 要跟合 格不合 
格 挂钩。 传 媒亦不 应再以 此作为 报导的 焦点。 

此外， 从按年 龄组别 画出的 分数分 布可以 看出， 民调 的数据 确能反 映一些 重要的 
社 会现象 。 虽然 大多数 人中间 落墨， 所谓的 极端分 数只占 少数， 但亦有 一成之 
众， 而且 集中在 30-39 岁的 组别。 在 一个社 会里， 沉 默的大 多数和 激进的 极少数 
同样 重要。 前者 是社会 稳定的 要素， 后者是 变革的 动力， 缺一 不可。 为甚 么某些 
组别的 人给了 最差的 评分， 他 们最关 注的是 甚么， 这方面 的跟进 工作， 不 但能够 
响应这 组人的 关注， 亦有 可能带 动社会 的整体 进步， 从政 者责无 旁贷。 

最后， 本 文作者 很感谢 港大民 研公开 最近一 次民调 的原始 数据， 让 社会大 众可以 
进行更 深入的 分析。 然而 SPSS 只 是学术 界常用 的统计 软件， 但如 果数据 的使用 
对象 是传媒 或一般 大众， 通 常的做 法是一 并提供 CSV 和 Excel 版本， 有 时也会 
提供 XML 版本 （参看 ： 美国 政府的 ((Data.gov)), 香港 政府的 《 资料一 线通 》 ）。 
现时在 MS Excel 上开启 SPSS 格 式档案 必须另 外安装 插件， 本文 作者亦 是使用 
了 PSPP (《 PSPP - GNU Project - Free Software Foundation 》） 或在 R (《 The R 
Project for Statistical Computing ))) 安装某 些特定 的程序 包才能 开启。 若能 以比较 
普 及的格 式提供 数据， 将有助 信息的 透明和 公开。 
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